的 思路 


本 书 是 以 非 计 算 机 专业 人 士 (尤其 是 社会 科学 领域 的 研究 者 ) 为 目标 读者 的 ， 但 它 对 于 广大 开发 者 也 有 很 好 的 参考 价值 。 本 书 介绍 


和 方法 并 不 仅仅 局 限于 R 语 言 的 应 用 ， 在 很 多 其 他 开发 平台 上 也 不 难 实现 。 
大 数据 技术 的 应 用 领域 除了 搜索 、 电 商 、 社 交 网 络 


对 我 个 人 来 说 ， 这 本 书 让 我 对 社会 科学 和 信息 技术 都 有 了 全 新 的 认识 ， 开 阔 了 眼界 。 
垂直 应 用 ， 还 可 以 和 很 多 专业 领域 结合 起 来 ， 挖 掘 出 非常 有 价值 的 信息 。 开 源 社 区 已 经 有 了 支持 各 种 技术 需求 的 现成 组 件 ， 大 大 简化 了 所 需 的 
编程 工作 。 可 以 说 ， 这 本 书 介 绍 的 技术 让 大 数据 、 网 页 抓 取 、 机 器 学 习 这 些 貌 似 高 大 上 和 高 深 莫 测 的 概念 交 得 有 具体 实际 了 。 
在 翻译 本 书 过 程 中 我 最 大 的 收获 与 其 说 是 技术 上 的 ， 不 如 说 是 理念 上 的 : 学 科 之 间 的 交叉 能 够 产生 如 此 奇妙 的 反应 ， 让 很 多 我 们 以 前 想 
多 轻松 地 实现 。 尤 其 是 在 大 数据 时 代 ， 自 动 化 数据 抓 取 和 文本 挖掘 技术 为 各 专业 领域 的 研究 者 提供 了 前 所 
分 析 统 计 的 过 程 产 生 量 化 的 结 以 此 来 支持 他 们 的 分 析 和 结 


A 


到 却 做 不 到 其 至 根本 不 敢 想 的 事 ， 
集 数 据 、 


， 让 社会 科学 家 也 能 像 自然 科学 家 一 样 通过 建 模 、 采 集 


过 定期 抓 取 


未 有 的 强大 工具 
基础 架构 的 作用 。 比 如 ， 书 中 介绍 了 通 


本 书 的 核心 内 容 是 自动 化 数据 抓 取 和 分 析 的 方法 ，R 语 言及 其 一 些 组 件 在 其 中 承担 了 
我 们 同样 可 以 利用 新 浪 微 博 提供 的 开放 接口 做 到 类 似 的 事情 (请 参 


Ves 


真正 需 


FP 


Twitter 相 关 推 文 对 奥斯卡 奖 得 主 进行 预测 的 案例 ， 
阅 http://open.weibo.com/wiki/2/seatrch/topics) 。 利 用 R 语 言及 其 众多 组 件 提 供 的 支持 ， 我 们 可 以 避 开 大 量 技 术 细 节 ， 专 注 于 研究 主题 ， 
而 是 一 种 越 来 越 方便 、 越 来 越 简单 的 工具 。 随 着 


就 像 现在 大 部 分 人 都 能 学 会 开车 和 使 用 


要 编写 的 代码 其 实 是 相当 简单 的 。 
编程 将 不 再 是 计算 机 专业 人 士 的 专刊 


管 中 罕 鹏 ， 可 见 一 斑 。 我 们 还 可 以 看 到 一 个 趋势 : 
) 及 其 配套 工具 的 完善 ， 几 乎 每 个 人 都 有 机 会 具备 基本 的 编程 能 力 ， 


各 种 编程 语言 (如 本 书 用 到 的 及 语言 
， 让 我 们 切切 实 实地 看 到 大 数据 在 社会 科学 领域 运 


电脑 上 网 一 样 。 
详细 的 讲解 以 及 真实 的 例子 


本 书 就 反映 了 上 述 趋势 。 在 书 中 ， 作 者 给 出 了 简洁 的 代码 、 
用 的 效果 。 作 者 尽 可 能 回避 用 涩 的 术语 和 高 深 的 理论 ， 为 我 们 提供 了 非常 实用 的 组 件 ， 并 探讨 了 一 些 很 有 趣 的 实际 问题 。 这 样 的 讲解 方式 非 
把 学 到 的 技术 运用 到 实际 研究 项 目 中 
， 望 读者 不 谊 指正 


难免 会 有 不 足 和 遗漏 之 处 
欢迎 读者 在 这 里 提 


有 利于 我 们 快速 上 手 、 循 序 渐进 学 习 ， 并 且 马 上 就 
在 翻译 的 过 程 中 ， 我 尽 了 最 大 努力 让 译文 通顺 易 懂 且 忠 于 原文 ， 但 是 ， 由 于 本 人 水 平 有 限 
我 在 此 先行 感谢 。 另 外 ， 我 在 GitHub 开 辟 了 一 个 讨论 区 : https://github.com/coderLMN/AutomatedDataCollectionWithR/issues 
出 自己 的 疑问 和 观点 并 参与 讨论 。 
会 子 我 的 支持 和 理解 。 翻 译 是 个 精益 求 精 的 工作 ， 是 他 们 帮 有 我 分 担 了 很 多 事情 


最 后 ， 我 要 感谢 我 的 父母 、 妻 子 和 儿子 在 本 书 翻译 过 程 中 给 予 


才 让 我 能 全 力 以 赴 地 投入 。 





享 、 收 集 和 发 布 数 据 的 方式 。 企 业 、 政 府 机 构 和 个 人 用 户 都 提供 了 各 种 类 型 的 信息 ， 新 的 沟 
观测 数据 稀缺 和 难以 获取 的 1 快速 A X Z 
的 大 量 数据 。 对 这 种 大 数据 





过 去 20 年 ， 互 联网 的 快速 发 展 改变 了 我 们 
来 了 有 关 人 类 行为 的 大 量 数 据 。 和 社会 科学 领域 曾经 的 根本 性 问题 
传统 的 数据 采集 和 分 析 技 术 可 能 不 足以 应 对 


Fei 
尽 用 之 不 竭 的 局 面 。 这 种 翻天 窗 地 的 形势 也 并 非 尽 善 尽 美 。 例 如 
利 选 ， 在 研究 者 和 企业 那里 都 很 受 欢 


分 析 的 结果 之 一 是 所 谓 “ 数 据 科 学 家 ”的 诞生 ， 他 们 外 


Eb 对 数据 进行 
Aa IK AB 就 是 像 R 这 样 的 开源 软件 越 来 越 ; 流行 ’ 越 来 越 有 向 力 
已 经 不 仅仅 是 一 个 免费 统计 软 


对 计量 社会 科学 家 来 说 ,RR 


的 需求 进行 
随 着 互联 网 的 高 歌 猛 进 ， 我 们 还 见证 了 第 二 个 
是 最 重要 的 分 析 软 件 之 一 。 它 得 益 于 有 一 个 不 断 发 布 新 组 件 的 活跃 社区 ,而且 该 社区 一 直 在 快速 成 长 。 到 现在 ， 
和 软件 包 的 接口 ， 这 样 就 大 大 简化 了 对 各 种 来 源 的 数据 进行 处 理 的 工作 。 


件 包 ， 它 还 包含 了 许多 其 他 编程 语言 


从 个 人 角度 来 说 ， 我 们 对 社会 科学 数据 所 做 的 工作 的 特点 可 以 总 结 如 下 : 

: 资金 比较 稀缺 。 

- 既 没 有 时 间 也 没有 意愿 进行 数据 的 手工 采集 。 

` 感 兴趣 的 是 利用 最 新 、 高 质量 和 海量 的 数据 来 源 。 

` 需要 记录 从 开始 (数据 采集 ) 到 结束 〈 发 布 结果 ) 的 整个 研究 过 程 ， 这 样 它 就 可 以 被 重 现 。 


在 过 去 ， 我 们 经 常 受 困 于 对 各 种 来 源 的 数据 进行 手工 整理 ， 还 要 寄 希 望 于 手工 整理 不 可 避免 带 来 的 编码 和 复制 -粘贴 错误 只 是 非 系统 性 的 。 
最 终 ， 我 们 越 来 越 厌倦 那 种 不 可 重 现 的 研究 数据 采集 方式 ， 这 种 方式 易于 出 错 、 绥 慢 复 杂 ， 而 且 提 高 了 因 烦 躁 而 死 的 风险 。 因 此 ， 我 们 不 断 地 
把 数据 采集 和 发 布 流程 纳入 在 统计 分 析 过 程 中 已 熟 悉 的 软件 环境 一 尺 。 这 个 程序 提供 了 一 套 很 好 的 基础 架构 ， 可 以 把 日 常 工作 流程 扩展 为 实际 
数据 分 析 前 后 的 一 系列 步骤 。 


虽然 目前 R 本 身 还 不 是 用 来 采集 数据 或 进行 实验 的 ， 但 我 们 还 是 认为 本 书 讲述 的 技术 不 仅仅 是 对 于 成 本 高 昂 的 调查 、 实 验 和 学 生 助理 编程 者 
的 “穷人 的 替代 品 “。 我 们 相信 它们 是 现代 数据 分 析 工具 组 合 的 有 力 补充 。 我 们 推崇 对 在 线 资源 的 数据 进行 采集 ， 不 仅 认为 它 是 比 传统 数据 采 
集 方 法 性 价 比 更 高 的 解决 方案 ， 更 将 其 视 为 从 新 的 和 不 断 开 发 中 的 数据 源 中 整合 数据 集 的 特有 方法 。 此 外 ， 我 们 重视 基于 电脑 程序 的 解决 方 
案 ， 因 为 它们 能 确保 可 靠 性 、 重 现 能 力 、 时 间 效 率 以 及 对 高 质量 数据 集 的 整合 。 除 了 工作 效率 ， 你 还 会 发 现 自己 乐于 通过 写 代 码 和 设计 算法 方 
案 替 代 乏 味 的 手工 劳动 。 简 而 言 之 ， 我 们 相信 ， 如 果 你 愿意 花 时 间 学 习 和 采用 本 书 中 推荐 的 技术 ， 在 数据 分 析 的 简便 性 和 质量 上 得 到 的 持续 提 


并 一 定 会 让 你 Z 2 HE HE 浅 。 


假定 你 已 经 确定 在 线 数据 是 你 的 项 目 所 适用 的 资源 ， 那 么 是 否 真 的 有 必要 采用 网 络 抓 取 或 统计 性 文本 处 理 技术 ， 以 及 随 之 而 来 的 自动 化 或 
半自动 化 数据 采集 流程 ? 虽然 我 们 不 能 指望 拿 出 一 锤 定 音 的 准则 ， 但 下 面 是 一 些 有 用 的 判断 条 件 。 如 果 你 发 现 自己 符合 其 中 的 多 个 条 件 ， 那 么 
自动 化 的 方法 很 可 能 就 是 正确 选择 : 


. 你 是 否 计 划 经 常 重 复 这 项 任务 ? 比如 ， 需 要 通过 它 来 保持 数据 库 的 更 新 。 
. 你 是 否 需 要 让 其 他 人 能 重复 你 的 数据 采集 过 程 ? 


. 你 是 否 经 常 处 理 在 线 的 数据 源 ? 


+ 如 果 这 项 任务 也 可 以 手工 完成 …… 你 是 否 缺 乏 必 要 的 资源 来 调动 其 他 人 参与 ? 
+ 你 是 否 愿 意 通过 编程 的 手段 实现 自动 化 流程 ? 


理想 情况 下 ， 本 书 讲述 的 技术 让 你 能 够 以 相当 合理 的 成 本 创建 强大 的 数据 集 ， 这 些 数据 集 来 自 现 有 的 、 非 结构 化 或 未 排序 的 数据 ， 之 前 也 
没有 人 分 析 过 它们 。 在 很 多 情况 下 ， 根 据 你 的 研究 主题 的 特点 ， 你 需要 对 本 书 讲 述 的 技术 重新 思考 、 提 炼 和 组 合 ， 才 能 有 所 成 效 。 在 任何 情况 
下 ， 我 们 都 希望 你 能 发 现 本 书 的 主题 对 你 有 所 局 发 ， 能 开阔 你 的 眼界 : 网 络 的 街道 是 用 数据 铺 成 的 ， 这 些 数据 正人 迫不及待 地 等 着 被 采集 。 


你 从 本 书 中 不 会 学 到 的 内 容 


当 你 浏览 目录 的 时 候 ， 你 会 对 阅读 本 书 之 后 有 望 学 到 的 东西 有 个 初步 的 印象 。 虽 然 我 们 很 难 确 定 哪些 部 分 是 你 希望 看 到 却 不 在 本 书 讨论 范 
围 内 的 ， 但 是 我 们 还 是 会 指出 你 在 本 书 中 找 不 到 的 菜 几 个 方面 的 内 容 。 





不 管 是 印刷 版 的 还 是 在 线 的 一 一 本 书 不 再 次 述 。 如 果 你 之 前 没 








你 在 本 书 中 不 会 看 到 对 R 环 境 的 介绍 。 这 
有 用 过 RR 语言 ， 也 大 可 不 必 失 望 地 将 此 书 束 之 高 阁 。 我 们 还 会 推荐 一 些 写 得 很 好 的 R 入 门 教材 。 


Jia 


你 也 不 要 指望 本 书 针 对 网 络 抓 取 或 文本 挖 气 进 行 全 面 讲解 。 首 先 ， 我 们 专门 使 用 了 一 套 软件 环境 ， 而 它 并 不 是 为 实现 这 些 目 的 量 身 定制 
的 。 在 一 些 应 用 需求 下 ，R 对 于 你 要 完成 的 任务 并 非 理想 解决 方案 ， 其 他 软件 包 可 能 更 合适 。 我 们 也 不 会 用 如 PHP、Python、Ruby 或 Perl 等 替代 
环境 来 干扰 你 。 要 想 知 道 本 书 是 否 对 你 有 帮助 ， 你 应 该 拉 心 自问 ， 你 是 否 已 经 或 计划 把 RR 用 在 日 常 工作 中 。 如 果 对 这 两 个 问题 的 答案 都 是 否定 
的 ， 很 可 能 你 就 应 该 考虑 替代 方案 了 。 但 是 ， 如 果 你 已 经 在 用 或 倾向 于 使 用 了 ， 你 就 可 以 省 下 学 习 另 一 个 开发 语言 的 精力 ， 留 在 熟悉 的 开发 环 


境 里 。 


本 书 也 不 会 严谨 地 介绍 数据 科学 。 在 这 个 主题 上 也 有 一 些 出 色 的 教材 ， 例 如 O Neil and Schutt (2013) ~ Torgo (2010) ~ Zhao (2012) , 
以 及 Zumel and Mount (2014) 。 在 这 些 书 中 偶尔 缺失 的 部 分 是 如 何在 真实 环境 中 获取 数据 科学 中 用 到 的 数据 。 在 这 方面 ， 本 书 可 以 作为 数据 分 
析 的 准备 阶段 的 参考 书 ， 它 还 给 出 了 关于 如 何 管理 可 用 信息 并 让 它们 保持 及 时 更 新 的 指导 原则 。 


最 后 ， 你 最 不 可 能 从 本 书 看 到 的 是 针对 你 的 具体 问题 的 完美 解答 。 在 数据 采集 过 程 中 ， 获 取 数 据 的 领域 从 来 都 不 会 完全 相似 ， 而 且 其 形式 
有 时 也 会 快速 变化 ， 这 都 是 固有 的 问题 。 我 们 的 目标 是 让 你 能 改写 例子 和 案例 分 析 中 提供 的 代码 ， 并 创建 新 的 代码 ， 以 此 帮助 你 在 采集 自己 所 
需 数 据 的 工作 中 获得 成 功 。 


为 什么 使 用 R 


对 于 本 书 中 涵盖 的 问题 ，R 是 一 个 很 好 的 解决 方案 ， 我 们 这 么 考虑 是 有 很 多 原因 的 。 对 我 们 来 说 ， 最 重要 的 几 点 原因 如 下 : 


` R 可 以 自由 和 简便 地 获得 。 你 可 以 按 自己 的 需要 随时 随地 下 载 、 安 装 和 使 用 它 。 不 去 钻研 那些 昂贵 的 专 有 软件 对 你 是 大 有 和 神 益 的 ， 因 为 你 
不 需要 依赖 于 雇主 支付 软件 版 权 党 的 意愿 。 


` 作为 一 个 主要 专注 于 统计 学 的 软件 环境 ，R 拥 有 一 个 巨大 而 且 持 续 繁荣 的 社区 。R 被 用 于 各 种 专业 领域 ， 如 社会 科学 、 医 学 科学 、 心 理 
学 、 生 物 学 、 地 理学 、 语 言 学 以 及 商业 等 。 这 样 大 的 专业 范围 让 你 能 与 很 多 开发 者 共享 代码 ， 并 从 文档 完善 的 多 领域 应 用 中 获 益 。 


有 是 开源 的 。 这 意味 着 你 能 够 轻松 地 分 析 函 数 的 工作 原理 并 毫 不 费力 地 修改 它们 。 这 也 意味 着 对 程序 的 修改 不 会 被 一 个 维护 产品 的 独家 程 


序 员 团队 所 控制 。 即 使 你 无 意 为 了 的 开发 贡献 代码 ， 你 仍然 可 以 从 种 类 繁多 的 可 选 扩展 项 (组件 ) 中 获 益 。 组 件 的 数量 与 日 俱 增 ， 很 多 已 有 的 组 
件 也 会 经 常 更 新 。 能 在 这 里 找到 相当 棒 的 关于 及 应 用 的 流行 主题 的 概述 : http: //cran.r-project.org/web/views/ o 


. 对 常规 任务 而 言 ，R 是 相当 快 的 。 如 果 你 用 过 类 似 于 SPSS 或 Stata 的 其 他 统计 软件 ， 并 养 成 了 在 计算 复杂 模型 的 时 候 顺 便 度 个 假 的 习惯 ， 
应 该 会 赞同 这 个 印象 ， 更 不 用 提 那 种 由 “同一 个 会 话 ， 同 一 个 数据 框 ” 的 逻辑 带 来 的 切肤之痛 了 。 甚 至 还 有 一 些 扩 展 可 以 用 来 加 速 R， 例 如 ， 在 
及 的 内 部 通 过 Rcpp 组 件 调用 Cie = 已 言 代码 。 


- R 在 构建 数据 可 视 化 效果 方面 也 很 强大 。 虽 然 这 对 于 数据 采集 并 非 显著 的 增值 ， 在 日 常 工作 中 你 还 是 不 应 该 错过 R 的 图 形 特色 。 我 们 后 
会 讲解 到 ， 对 被 采集 数据 的 视觉 检查 能 够 且 必 须 作 为 数据 校 验 的 第 一 步 ， 以 及 图 形 如 何 给 海量 数据 提供 直观 的 总 结 方式 。 


. 使 用 R 进 行 的 工作 主要 是 基于 命令 行 的 。 这 在 R“ 菜 岛 ” 听 起 来 也 许 像 是 一 个 不 足 ， 但 相 比 那些 要 用 鼠标 点 击 的 程序 来 说 ， 这 是 唯一 能 支 
持 产 生 可 重 现 结果 的 方式 。 


. R 对 于 操作 系统 是 不 挑 噜 的 。 常 可 以 在 Windows、Mac OS 和 Linux 下 运行 


最 后 ，R 是 能 自始至终 支持 研究 过 程 的 完整 软件 包 。 如 果 你 在 读 这 本 书 ， 你 应 该 不 是 专职 程序 员 ， 而 是 对 于 你 要 从 事 的 某 个 主题 或 特定 数 
据 源 有 相当 大 的 兴趣 。 在 这 种 情况 下 ， 学 习 另 一 门 语 言 不 会 有 成 效 ， 反 而 会 让 你 无 法 开展 研究 工作 。 首 通 研 究 流程 的 一 个 例子 如 图 1 所 示 。 它 的 
特点 是 永远 在 各 种 程序 之 间 切 换 。 如 果 你 需要 对 数据 采集 过 程 进行 修正 ， 你 就 不 得 不 顺 着 整个 梯子 爬 回去。 而 使 用 R 的 研究 过 程 ， 正 如 在 本 书 中 
所 讲述 的 ， 只 在 单一 的 软件 环境 中 进行 〈 见 图 2) 。 对 于 网 络 抓 取 和 文本 处 理 而 言 ， 这 意味 着 你 不 必 为 这 项 任务 去 学 习 另 一 门 编程 语言 。 你 需 
学 习 的 只 是 标记 语言 HIML、XML、 正 则 表达 式 罗 辑 和 XPath 的 一 些 基础 知识 ， 但 所 需 的 操作 都 是 在 R 内 部 执行 的 。 
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图 1 不 使 用 R 的 研究 过 程 一 一 形象 化 的 例子 





图 2 ”使 用 R 的 研究 过 程 一 一 形象 化 的 例子 


R 起 步 阶段 的 推荐 读物 


市 面 上 有 很 多 写 得 很 好 的 介绍 R 的 书 。 在 它们 当中 ， 我 们 发 现 以 下 几 本 尤其 有 帮助 : 
Crawley, Michael J.2012.The R Book, 2nd edition.Hoboken, NJ: John Wiley & Sons. 


Adler, Joseph.2009.R in a Nutshell.A Desktop Quick Reference.Sebastopol, CA: O Reilly. 


LATEX/R 





Teetor, Paul.2011.R Cookbook.Sebastopol, CA: O Reilly. 


除了 这 些 商 业 化 的 资源 ， 网 上 还 有 很 多 免费 的 信息 。 对 绝对 的 新 手 来 说 ，Code School 上 有 个 真正 超 棒 的 在 线 教程 ， 可 以 
在 http://tryt.codeschool.com 看 到 。 另 外 ，Quick-R (http://www.statmethods.net/) 里 有 很 多 基本 命令 的 索引 。 最 后 ， 你 也 可 以 
在 http://www.ats.ucla.edu/stat/t/ 找 到 很 多 免费 资源 和 例子 。 


R 是 一 个 不 断 成 长 中 的 软件 ， 为 了 跟 上 它 的 进展 ， 你 或 许 需要 定期 访问 Planet R (http://planetr.stderr.org/) ， 该 网 站 提供 了 已 有 组 件 的 发 布 
历史 ,偶尔 还 会 介绍 一 些 有 意思 的 应 用 。R-Bloggers (http://www.t-bloggers.com/) 是 个 博客 大 杂烩 ， 它 专门 收集 有 关 R 的 各 种 领域 的 博客 。 它 提 
供 了 由 数 以 百 计 的 R 应 用 构成 的 广阔 视角 ， 这 些 应 用 涉及 的 领域 从 经 济 学 到 生物 学 再 到 地 理学 ， 大 部 分 都 附 有 重 现 博文 内 容 所 必需 的 代码 。R- 
Bloggets 甚 至 推介 了 一 些 探 讨 自 动 化 数据 采集 的 例子 。 


当 你 遇 到 问题 的 时 候 ，R 的 帮助 文件 有 时 候 不 是 特别 有 用 。 去 Stack Overflow (http://stackoverflow.com) 这 样 的 在 线 论 坛 或 Stack Exchange I 

络 旗 下 的 其 他 站 点 寻求 帮助 往往 会 更 有 启发 性 。 对 于 复杂 问题 ， 可 以 考虑 去 GitHub (http://github.com) 上 找 一 些 R 的 专家 。 另 外 请 注意 ， 还 有 
很 多 特别 兴趣 小 组 (SIG) 的 邮件 列表 (http://www.r-project.org/mail.html) ， 里 面 划分 了 多 种 多 样 的 主题 ， 黄 至 还 履 盖 全 世界 的 同城 R 用 户 小 组 
(http: //blog.revolutionanalytics.com/local-r-groups.html) 。 最 后 ， 有 人 建 了 个 CRAN 任 务 视图 ， 较 好 地 概括 了 近期 Web 技 术 的 进展 和 R 框 架 里 的 服 


务 : http://cran.t-project.org/web/views/WebTechnologies. html. 


AcE ak 


本 书 的 配套 网 站 见 http://www.t-datacollection.com。 


该 网 站 提供 了 书 中 例子 和 案例 分 析 的 相关 代码 ， 以 及 其 他 一 些 内 容 。 这 意味 着 你 无 须 手 工 从 书 中 复制 代码 ， 直 接 访问 和 修改 相应 的 R 文 件 即 
可 。 你 也 可 以 在 该 网 站 找到 某 些 练习 题 的 解答 ， 以 及 本 书 的 勘误 表 。 如 果 你 在 书 中 发 现 了 任何 错误 ， 也 请 不 吝 告 知 。 


XRR-KKF MAR (spider) 抓 取 数 据 的 书 。 网 络 蜂 蛛 是 在 互联 网 上 抓 取信 息 的 程序 ， 它 能 很 快 地 从 一 个 网 页 跳 转 到 另 一 个 网 页 ， 往 
往 会 抓 取 整 个 网 站 的 内 容 。 如 果 你 想 追 随 的 是 Google 的 Googlebot 的 足迹 ， 那 你 很 可 能 拿 错 书 了 。 本 书 介绍 的 技术 是 用 于 更 明确 、 更 温柔 的 工 
作 ， 也 就 是 从 特定 的 网 站 抓 取 特定 的 信息 。 最 后 ， 你 要 为 自己 学 会 这 些 技术 之 后 的 所 作 所 为 负责 。 本 书 示 例 的 代码 和 得 罪 网 站 管理 员 的 程序 之 
间 往 往 没有 太 大 的 鸿沟 。 所 以 ， 下 面 是 关于 如 何 做 好 一 个 网 络 数 据 采集 从 业者 的 一 些 重要 忠告 : 


“ 牢记 你 的 数据 是 从 何 而 来 的 ， 在 可 能 的 时 候 ， 感 谢 那 些 最 初 采 集 并 发 布 它 的 人 们 。 


. 如 果 你 打算 二 次 发 布 那些 在 网 络 上 找到 的 数据 ， 切 勿 违反 版 权 协 议 。 如 果 这 些 信息 不 是 你 自己 采集 的 ， 有 时 你 需要 所 有 权 人 的 许可 才能 


对 其 进行 加 工 。 


不 要 做 任何 违法 的 事情 ! 要 了 解 你 在 数据 采集 过 程 中 能 做 和 不 能 做 的 事情 ， 可 以 去 Justia BlawgSearch (http://blawgsearch.justiacom/, i 
一 个 搜索 法 律 相关 博客 的 网 站 ) 核对 一 下 。 在 里 边 搜索 被 标记 为 “web scraping (网 络 抓 取 ) 的 结果 有 助 于 你 了 解 相关 法 律 的 进展 和 近期 的 判 
决 。 另 外 ， 电 子 前 沿 基 金 会 (http://www.eftotge/) 早 在 1990 年 就 成 立 了 ， 它 致力 于 保护 消费 者 和 大 众 的 数字 权利 。 不 过 ， 我 们 希望 你 永远 不 需 
要 仰 会 他 们 的 帮助 。 


关于 从 网 络 抓 取 内 容 的 行为 ， 本 书 9.3.3 节 提出 了 一 些 更 详细 的 建议 。 
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第 1 章 概述 


你 是 否 准备 好 第 一 次 尝试 网 络 抓 取 ? 让 我 们 从 一 个 你 能 直接 在 你 的 电脑 上 重建 的 小 例子 开始 ， 假 设 你 已 经 安 六 好 R。 此 案例 会 让 你 对 本 书 的 
核心 主题 有 个 初步 的 印象 。 


1.1 “案例 研究 : 濒 尼 世界 遗产 地 


联合 国教 科 文 组 织 (UNESCO) 是 联合 国 的 一 个 机 构 ， 其 职责 包括 对 全 世界 目 然 和 文化 遗产 的 保护 。 迄 今 为 止 (截至 2013 年 11 月 ) ， 已 经 
有 981 个 地 点 被 列 入 世界 遗产 ， 其 中 大 部 分 是 像 胡 夫人 金字 塔 这 样 的 人 造 建 筑 ， 但 也 包括 像 大 堡礁 这 样 的 目 然 景观 。 遗 憾 的 是 ， 一 些 被 划 定 为 世界 
遗产 的 地 点 正在 遭受 人 类 活动 的 威胁 。 有 哪些 地 点 正在 遭受 威胁 ? 它们 分 别 在 哪些 地 万 ? 世界 上 是 不 是 有 一 些 地 区 的 遗产 比 其 他 地 区 的 遗产 处 
于 更加 濒危 的 状态 ? 遗产 地 面临 频 危 风险 的 原因 有 哪些 ? 这 些 都 是 我 们 在 第 一 个 案例 研究 中 想 要 检验 的 问题 。 


当 科 学 家 要 掌握 某 个 主题 的 基本 情况 时 ， 他 们 一 般 首 先 会 做 哪 件 事 呢 ? 他 们 会 去 维基 百科 (Wikipedia) 查阅 这 个 主题 ! 打开 世界 遗产 地 的 
页 面 (http://en.wikipedia.org/wiki/List_of World Heritage in Danger) ， 我 们 会 看 到 一 份 清单 ， 其 中 列 出 了 现在 和 以 前 濒危 的 遗产 地 。 这 
份 列表 包含 了 名 称 、 位 置 (所 在 城市 、 国 家 及 其 地 理 坐 标 ) 、 遗 产地 面临 威胁 的 种 类 、 该 地 点 被 列 入 世界 遗产 的 年 份 以 及 该 地 点 被 列 入 濒危 世 
界 遗产 的 年 份 。 我 们 首先 调查 一 下 这 些 地 点 在 全 世界 的 分 布 情况 。 


时 然 这 张 列 表 包 含 了 有 关 遗 产地 的 信息 ， 但 它们 所 在 的 位 置 或 区 域 性 聚集 的 情况 并 不 是 特别 直观 。 相 比 用 肉眼 扫 摘 列表 ， 更 有 效 的 方法 是 
在 地 图 上 标 出 每 个 遗产 地 的 位 置 。 因 为 人 类 善于 处 理 视 党 信 息 ， 所 以 我 们 在 本 书 中 会 尽 可 能 地 让 分 析 结 果 可 视 化 。 不 过 ， 如 何 把 来 自 列 表 的 信 
息 对 应 到 地 图 上 呢 ? 这 听 起 来 像 是 个 有 难度 的 任务 ， 但 实际 上 并 非 如 此 ， 在 后 面 的 内 容 中 ， 我 们 会 充分 讨论 一 些 相关 的 技术 。 现 在 ， 我 们 先 让 
你 有 一 个 如 何 用 R 处 理 这 类 任务 的 切 步 印象 。 本 书 在 后 面 的 章节 里 会 更 系统 化 地 详细 讲解 下 面 的 代码 片段 中 的 命令 。 


一 开始 ， 我 们 需要 加 载 一 批 组 件 。 昌 然 R 只 有 一 组 基本 函数 
行 扩展 。 对 本 例 而 言 ， 我 们 要 用 library O 函数 1 加 载 下 列 组 件 : 





主要 是 与 数学 和 统计 学 相关 的 ， 但 是 通过 用 户 编写 的 组 件 可 以 轻松 地 对 它 进 


R library (stringr) 
R> library (XML) 
R> library (maps) 


下 一 步 ， 我 们 把 页 面 上 的 数据 加 载 到 R 中 。 这 可 以 通过 XML 组 件 的 readHTMLTable () 函数 轻松 实现 : 


R> heritage parsed <- htmlParse("http://en.wikipedia.org/wiki/ 
List of World Heritage in Danger", 
encoding = "UTF-8") 
R> tables <- readHTMLTable (heritage parsed, stringsAsFactors = FALSE) 


我 们 会 在 第 9 章 详细 讲解 这 一 步 以 及 其 他 重要 网 络 抓 取 技 术 的 原理 。 就 目前 而 言 ， 你 只 需要 知道 ， 我 们 在 这 一 步 要 告诉 R， 它 要 导入 的 数据 
是 以 HTML 网 页 的 形式 出 现 的 。R 有 能 力 解析 HTML， 也 就 是 说 ， 它 知道 在 这 种 文件 格式 下 的 表格 、 标 题 或 者 其 他 元 素 的 构成 方式 。 这 是 通过 
htmlParse () 函数 调用 的 “解析 器 ” (parser) 起 作用 的 。 在 下 一 步 ， 我 们 要 让 R 从 解析 出 来 的 heritage_parsed 对 象 中 提取 所 有 能 找到 的 
HTML 表 格 ， 并 保存 到 新 的 tables 对 象 中 。 如 果 你 还 不 熟悉 HTML， 在 第 2 章 你 会 通过 同样 的 代码 片段 了 解 这 些 HTML 表 格 。 
readHTMLTable () 函数 则 用 来 识别 和 读 取 这 些 表 格 。 


现在 ， 我 们 需要 的 所 有 信息 都 在 tables 对 象 里 了 。 这 个 对 象 是 readHTMLTable () 函数 在 HTML 网 页 中 能 找到 的 所 有 表格 的 一 份 列表 。 在 
看 过 所 有 表格 之 后 ， 我 们 杜 选 了 感 兴 趣 的 那个 表格 (第 二 个 ) 并 把 它 存 到 一 个 命名 为 danger table 的 新 表格 里 。 该 表格 里 的 一 些 变量 并 不 是 我 


们 所 感 兴趣 的 ， 所 以 我 们 算 选 出 的 信息 只 包含 了 遗产 地 的 名 称 、 位 置 、 遗 产 标准 (文化 或 自然 )、 列 入 遗产 的 年 份 以 及 列 入 濒危 遗产 的 年 份 。 
这 个 表格 里 的 变量 被 分 配 的 命名 并 不 是 太 好 用 ， 所 以 我 们 要 给 它们 重新 进行 标记 。 最 后 ， 我 们 来 看 一 下 开头 几 个 遗产 地 的 名 称 : 


R> danger table <- danger table <- tables[[2]] 
R> names (danger table) 


[1] "NULL.Name" "NULL. Image" "NULL.Location" 
[4] "NULL.Criteria" "NULL.Area.ha..acre." "NULL. Year. .WHS." 
[7] "NULL. Endangered" "NULL.Reason" "NULL.Refs" 


R> danger table <- danger table[, c(1, 3, 4, 6, 7)] 
R> colnames (danger table) <- c("name", "locn", "crit", "yins", "yend") 


R> danger tableSname [1:3] 


[1] "Abu Mena" "Air and Ténéré Natural Reserves" 
[3] "Ancient City of Aleppo" 


这 个 结果 看 起 来 是 好 用 的 。 另 外 ， 我 们 还 要 进行 一 些 简单 的 数据 清理 ， 这 个 步骤 通常 是 把 基于 网 络 的 内 容 导 入 R 时 所 必需 的 。 包 含 遗产 地 
是 “文化 ”还 是 “自然 ”特性 信息 的 变量 crit 被 重新 编码 ， 两 个 年 份 变量 y_ ins 和 y_end 也 被 转换 为 数字 类 型 。 斩 在 y end 变量 中 有 一 些 数 据 条 目 
是 模糊 的 ， 其 中 包含 了 多 个 年 份 值 。 我 们 只 选择 该 数据 项 里 最 后 的 一 个 年 份 值 。 为 此 ， 我 们 制定 了 一 个 所 谓 的 “正则 表达 式 ” (regular 
expression) ， 它 的 表达 式 是 [[: digit: ]]4$， 我 们 会 在 下 一 段 内 容 讲解 它 的 含义 。 


R> danger tableScrit <- ifelse(str detect (danger tableScrit, "Natural") == 
TRUE, "Hab", “aule™) 


R> danger tableScrit [1:3] 


[1] Noylt" "nat 和 "cult" 


R> danger tableSyins <- as.numeric (danger tableSyins) 
R> danger tableSyins [1:3] 
[1] 1979 1991 1986 


R> yend clean <- unlist(str_ extract all(danger tableSyend, "[[:digit:]]45")) 
R> danger tableSyend <- as.numeric(yend clean) 

R> danger tableSyend [1:3] 
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locn 这 个 变量 的 值 也 有 点 杂乱 ， 我 们 在 数据 集 里 找 三 条 数据 作为 例子 


R> danger tableslocn[lc(1, 3, 5)] 

[1] "EgyAbusir, Egypt30°50'30<U+20335N 29°39'50<U+2033>E<U+FEFF> / 
<U+FEFF>30.84167°N 29.66389°E<U+FEFF> / 30.84167; 29.66389<U+FEFF> 

(Abu Mena)" 

[2] "Syria !Aleppo Governorate, Syria36°14'0<U+2033>N 37°10'0<U+2033 
>E<U+FEFF> / <U+FEFF>36.23333°N 37.16667°E<U+FEFF> / 36.23333; 37.16667 
<U+FEFF> (Ancient City of Aleppo)" 

[3] "Syria !Damascus Governorate, Syria33°30'41<U+20335N 36°18'23 
<U+2033>E<U+FEFF> / <U+FEFF>33.51139°N 36.30639°E<U+FEFF> / 33.51139; 
36.30639<U+FEFF> (Ancient City of Damascus)" 


该 变量 包含 了 遗产 地 位 置 的 名 称 、 所 在 国家 和 多 种 格式 的 地 理 坐 标 。 而 我 们 用 到 地 图 上 的 数据 只 需要 用 纬度 值 (例如 ，30.84167N) 和 经 
度 值 (例如 ，29.66389E) 表示 的 坐标 。 为 了 提取 这 个 信息 ,我们 必须 采用 某 种 更 先进 的 文本 处 理工 具 ， 称 为 “正则 表达 式 ”， 在 第 8 草 有 对 它 
的 详细 讲解 。 简 而 言 之 ， 我 们 必须 给 R 准 确 描 述 我 们 感 兴趣 的 信息 看 上 去 是 什么 样子 的 ， 然 后 让 R 据 此 去 搜索 和 提取 这 些 信息 。 为 此 ， 我们 采用 
了 来 自 stringr 组 件 的 函数 ， 在 第 8 章 也 会 对 该 组 件 进行 详细 讲解 。 为 了 获取 纬度 值 和 经 度 值 ， 我 们 编写 了 下 列 代码 : 


Rs ae 二 
R> reg x <= "[;] | -]*[[sdigit:]]*[-]*[[:digit:]]*" 

R> y coords <- str extract (danger tableSlocn, reg y) 
R> y coords <- as.numeric(str sub(y coords, 3, -2)) 
R> danger tableSy coords <- y coords 

R> x coords <- str extract (danger tableSlocn, reg x) 
R> x coords <- as.numeric(str_ sub(x_ coords, 3, -1)) 
R> danger table$x coords <- x coords 

R> danger tableSlocn <- NULL 


不 要 被 前 两 行 代码 弄 景 了。 这些 看 起 来 像 猴子 在 键盘 上 胡乱 敲 出 来 的 东西 实际 上 是 对 locn 变 量 中 包含 的 坐标 的 精确 拉 述 。 该 信息 在 locn 变 
量 中 的 表现 方式 既 有 分 数 格式 的 度数 ， 也 有 分 开 的 度 、 分 、 秒 格式 。 因 为 分 数 格式 的 度数 更 容易 用 正则 表达 式 来 表示 ， 所 以 我 们 要 尝试 把 这 些 
格式 的 数据 提取 出 来 。 编 写 正 则 表达 式 意味 着 要 找到 我 们 希望 提取 的 字符 串 的 一 般 特 征 。 我 们 观察 到 纬度 和 经 度数 据 总 是 出 现在 一 个 斜 杠 之 
后 ， 而 且 是 由 一 个 点 分 开 的 多 个 数字 组 成 的 序列 。 某 些 值 以 一 个 减 号 开头 。 纬 度 和 经 度 两 个 值 由 一 个 分 号 分 开 ， 最 后 由 一 个 空格 和 和 斜 杠 结尾 。 
当 我 们 用 str_extract () 命令 把 这 个 特征 应 用 到 locn 变 量 上 ， 再 用 str_sub () 命令 提取 出 数字 信息 ， 就 得 到 了 下 列 数据 : 


R> round(danger tableSy coords, 2) [1:3] 
LL), 20.64 18.28 36.24 


R> round (danger table$x coords, 2) [1:3] 
[1] 29.66 S200 S421 7 


这 看 起 来 效果 不 错 。 我 们 已 经 获取 了 一 组 44 个 坐标 ， 应 着 44 个 濒 所 世界 遗产 地 。 我 们 粗略 地 看 看 这 些 数 据 。 dim () 命令 返回 数据 集 的 行 


数 和 列 数 ;head () aS UWRF AWS TREE : 


R> dim(danger table) 
[1] 44 6 
R> head(danger table) 
name crit yins yend y coords x coords 


1 Abu Mena cult 1979 2001 30.84 29.66 
2 Air and Ténéré Natural Reserves nat 1991 1992 18:28 8.00 
3 Ancient City of Aleppo cult 1986 2013 36:23 t. br Oo lar 
4 Ancient City of Bosra cult 1980 2013 32Sa 36.48 
5 Ancient City of Damascus cult 1979 2013 cS eae ct gees al 
6 Ancient Villages of Northern Syria cult 2011 2013 3644 36.84 


该 数据 集 由 44 条 数据 和 6 个 变量 组 成 。 现 在 ， 要 把 这 些 数 据 设 定 成 能 够 映射 到 地 图 上 的 形式 。 为 此 ， 我 们 要 使 用 另 一 个 叫 “maps ”的 组 
件 。 在 这 个 组 件 里 找到 了 一 幅 世 界 地 图 ， 可 以 根据 提取 出 的 y 和 x 坐标 在 地 图 上 对 各 个 遗产 地 进行 精确 定位 。 定 位 结果 如 图 1-1 所 示 。 该 结果 是 由 
下 列 代 码 产 生 的 : 


R> pch <- ifelse(danger tableScrit == "nat", 19, 2) 

RS: fiat "wore". ol = “darkvrey",. iwi = 0.5). tar = €2(0.1, 8.4, 8.1, 8.07) 
R> points (danger table$x coords, danger table$y coords, pch = pch) 

R> box () 





图 1-1 联合 国教 科 文 组 织 划 定 的 濒危 世界 遗产 地 (截至 2014 年 3 月 ) 。 文 化 遗产 地 标记 为 三 角形 ， 自 然 遗 产地 标记 为 圆 点 


可 以 看 出 ， 很 多 濒危 遗产 地 位 于 非洲 、 中 东 和 西南 亚 ， 还 有 一 些 位 于 中 南美 洲 。 濒 危 文化 遗产 地 用 三 角形 标示 。 它 们 相对 集中 在 中 东 和 西 
南亚 。 相 反 ， 用 圆 点 标示 的 濒危 自然 遗产 地 在 非洲 更 突出 一 些 。 我 们 还 友 现 ， 濒 危 的 文化 遗产 比 自然 遗产 更 多 。 


R> table(danger tableScrit) 


cult nat 
26 18 


我 们 可 以 分 析 相 天 国家 的 政治 、 经 济 或 环境 状况 导致 这 些 遗 产地 濒危 的 可 能 性 。 昌 然 表 格 中 的 信息 也 许 太 稀 踊 ， 不 足以 进行 严谨 的 推理 ， 
但 是 我 们 起 码 可 以 分 析 某 些 时 间 趋 势 和 教科 文 组 织 推 行 遗 产地 的 潜在 动机 。 为 此 ， 我 们 可 以 利用 y_ins 和 0y_end 两 个 变量 ， 它 们 包含 了 某 地 点 被 
列 入 世界 遗产 的 年 份 和 它 被 列 入 濒危 世界 遗产 的 年 份 。 图 1-2 显 示 了 我 们 使 用 hist () 命令 产生 的 第 二 个 变量 的 分 布 情况 。 我 们 发 现在 最 近 几 十 
年 ， 濒 危 目录 中 的 遗产 地 的 增长 频率 加 快 了 ， 但 同时 世界 遗产 地 的 总 数 也 在 增加 : 


R> 
R> 





hist (danger tableSyend, 
freq = TRUE, 
xlab = "Year when site was put on the list of endangered sites", 
Main = " ") 





1980 1985 1990 1995 2000 2005 2010 2015 
列 入 濒危 名 单 的 年 份 


图 1-2 ”世界 遗产 地 被 列 入 濒危 名 单 的 年 份 分 布 


更 有 意思 的 是 列 入 遗产 年 份 和 列 入 濒危 年 份 之 间 的 时 间 区 间 的 分 布 情况 ， 也 就 是 说 ， 在 一 个 地 点 达到 世界 遗产 地 位 之 后 被 列 入 “红色 千 报 
清单 ”所 经 过 的 时 间 。 我 们 把 濒危 年 份 减 去 列 入 遗产 年 份 ， 计 算出 这 个 值 。 结 果 绘 制 在 图 1-3 中 。 


co bb A 


R> 
R> 


其 中 1 


12 
10 


0 5 10 15 20 25 30 35 
列 人 濒危 所 经 过 的 年 份 数 


图 1-3” 列 入 世界 遗产 地 年 份 和 列 入 濒危 年 份 之 间 的 时 间 区 间 的 分 布 情况 


duration <- danger tableSyend - danger tableSyins 


hist (duration, 
freq = TRUE, 
xlab = "Years it took to become an endangered site", 
Main = nn) 


民 多 地 点 在 被 认定 为 世界 遗产 之 后 很 快 融 进 入 了 濒危 清单 。 根 据 文 化 遗产 或 目 然 遗 产 的 官方 入 选 标准 ， 濒 危 状 态 并 非 必要 条 件 。 恰 恰 


相反 ， 濒 危 遗产 地 有 可 能 会 失去 它们 作为 世界 遗产 的 地 位 。 那 么 问题 是 为 什么 它们 在 可 能 会 很 快 失去 世界 遗产 地 位 的 风险 下 还 能 进入 世界 遗产 
名 录 呢 ?有 人 会 猜测 世界 遗产 委员 会 可 能 非常 了 解 这 些 情况 ， 也 可 能 利用 世界 遗产 名 录 作 为 对 这 些 地 点 加 强 保护 的 一 种 政治 手段 。 


IME, JLRS CORRS ESI! 哪个 国家 的 频 危 遗产 地 最 多 ? BCH AE BRA AE? 在 维基 百科 页 面 上 
还 有 另 一 个 表格 列 出 了 以 前 被 列 入 过 世界 遗产 的 地 点 的 信息 。 你 可 能 需要 把 这 些 数 据 也 抓 取 下 来 ， 把 它们 合并 到 地 图 上 。 


只 用 了 区 区 几 行 代码 ， 我 们 就 充实 了 这 些 数 据 并 获得 了 一 些 新 的 见解 ， 如 果 单独 分 析 原 始 表 格 ， 这 些 见解 并 不 是 一 目 了 然 的 。 上 这 个 例子 
只 是 我 们 把 贯穿 本 书 的 普遍 真理 实例 化 的 一 个 变量 而 已 ， 而 这 个 普遍 真理 就 是 : 数据 是 海量 的 一 一 获取 它们 ， 加 工 它们 ， 使 用 它们 。 


[1] 此 处 假定 所 有 相关 组 件 已 经 安装 好 。 否 则 ， 请 在 你 的 控制 台 输入 下 面 的 命令 : 
install.packages (c (&quot;stringr&quot;, &quot;XML&quot;, “maps” ) ) 。 

[2] 假定 你 已 熟悉 R 中 的 基础 对 象 类 。 否 则 ， 请 查阅 前 言 部 分 推荐 的 相关 读物 。 

[3] 细心 的 读者 会 在 维基 百科 上 注意 到 一 个 链接 ， 点 击 链接 就 会 转 到 一 幅 地 图 ， 里 面 标 出 了 所 有 的 濒危 遗产 地 ， 和 图 1-1 的 结果 相同 。 我 们 赞赏 维 
基 百 科 的 这 一 工作 ， 但 还 是 布 望 能 自行 生成 这 样 的 结果 。 


1.2 有 关 网 络 数据 质量 的 一 些 寺 论 


上 面 的 入 门 例子 优雅 地 避 开 了 一 些 更 严肃 的 问题 ， 这 些 问题 在 你 从 事 科 研 工作 时 很 可 能 会 遇 到 。 要 解决 科研 中 的 问题 ， 哪 种 类 型 的 数据 是 
最 适合 的 ? 数据 的 质量 足够 高 吗 ? 获取 的 信息 是 否 有 系统 性 的 缺陷 ? 虽然 本 书 不 会 讲解 科研 设计 或 处 理 数据 吕 声 的 高 级 统计 方法 ， 但 是 我 们 还 
是 要 在 开始 获取 大 量 信息 之 前 对 这 些 问题 进行 强调 。 


当 查 看 在 线 数据 时 ， 你 必须 牢记 它 的 来 源 。 信 息 可 能 是 一 手 的 ,例如 ，Twitter 上 的 帖子 也 可 能 是 从 离线 数据 源 复 制 而 来 的 二 手数 据 ， 甚 至 
是 从 其 他 地 方 拼凑 出 来 的 。 在 某 些 情况 下 你 可 能 无 法 追溯 数据 的 源头 。 要 是 这 么 说 ， 使 用 来 自 网 络 的 数据 还 靠 谱 吗 ? 我 们 认为 答案 是 肯定 的 。 


说 到 数据 生成 的 透明 度 问题 ， 网 络 数 据 在 这 方面 和 其 他 二 级 来 源 相 比 并 没有 大 大 的 差异 。 就 拿 维 基 百 科 做 个 流行 的 例子 吧 。 关 于 把 在 线 百 
科 全 书 内 容 引 用 到 科研 和 论文 里 是 否 合 适 ， 这 个 问题 一 直 存 在 争议 。 对 于 把 维基 百科 的 表格 数据 或 文本 用 于 分 析 的 情况 ， 也 存在 同样 的 问题 。 
研究 表明 ， 维 基 百 科 里 面 内 容 的 准确 度 也 是 各 不 相同 的 。 有 一 些 研究 结果 友 现 维基 百科 与 那些 历史 您 久 并 得 到 公认 的 百科 全 书 的 质量 是 差不多 
的 (Chesney 2006; Giles 2005; Reavley et al.2012) ， 而 其 他 研究 结果 则 提出 维基 百科 的 数据 质量 有 时 比较 低劣 (Clauson et al.2008; 
Leithner et al.2010; Rector 2008) 。 但 是 ， 如 果 你 只 依赖 于 某 一 个 特定 的 条 目 ， 怎 么 能 知道 它 的 质量 到 底 是 高 还 是 低 呢 ?所 以 ,我 们 的 建议 
是 找到 第 二 个 数据 源 ， 用 它 来 验证 内 容 的 质量 。 如 果 你 不 确定 两 个 数据 源 是 否 来 自 同一 个 源头 ,就 应 该 骨 次 重复 寻找 下 一 个 数据 源 的 过 程 。 这 
样 的 交叉 检验 对 于 任何 二 级 数据 源 都 应 该 是 标准 的 程序 ， 因 为 数据 源 的 声誉 并 不 能 排除 随机 性 或 系统 性 的 错误 。 


此 外 ， 数 据 质量 并 非 像 微 章 一 样 订 在 数据 上 面 ， 而 是 取决 于 它 的 应 用 。 在 随机 的 一 天 选取 一 组 Twitter 推 文 的 样本 ， 这 对 于 分 析 # 号 的 使 用 
情况 或 其 中 句子 的 性 别 特性 可 能 是 充分 的 ， 但 对 预测 大 选 结果 来 说 ， 如 果 采 集 样本 的 当天 正好 赶 上 共和 党 全 国 大 会 召开 ， 这 些 样本 残 不 那么 好 
用 了 。 对 于 后 者 的 情况 ,数据 很 可 能 因为 采集 日 期 不 合适 而 出 现 偏差 ， 也 束 是 说 ， 从 “代表 性 ”的 角度 来 看 ， 它 们 是 达 不 到 质量 标准 的 。 
此 ， 唯 一 的 数据 质量 标准 是 你 自己 设 定 的 。 事 实 上 ， 处 理事 实数 据 的 质量 标准 会 更 加 相近 ， 比 如 ， 非 洲 大 象 数量 在 过 去 6 个 月 里 很 可 能 没有 增长 
三 信 ， 再 比如 ， 美 国 的 首都 是 华盛顿 而 不 是 纽约 。 


写 无 疑问 ， 在 使 用 在 线 数 据 的 情况 下 ， 虽 然 不 能 因此 而 降低 数据 质量 的 标准 ， 但 是 需要 关心 的 问题 有 可 能 会 不 一 样 。 比 如 ， 你 想 知 道人 们 
对 一 种 新 手机 的 看 法 。 针 对 这 种 问题 ， 市 场 研究 行业 有 好 几 种 标准 方法 。 例 如 ， 你 可 以 进行 手机 调查 ,询问 数 以 百 计 的 受 访 者 他 们 是 否 考 虑 购 
买 某 一 种 手机 ， 以 及 其 中 他 们 最 感 兴趣 的 功能 。 很 多 已 出 版 的 书籍 分 析 了 这 种 场景 下 有 可 能 出 现 的 数据 质量 缺陷 。 例 如 ， 对 于 那些 我 希望 了 解 
他 们 看 法 的 人 ， 受 访 者 是 否 有 “代表 性 ”? 对 受 访 者 的 提问 是 否 适 合用 来 征求 我 所 研究 问题 的 答案 ? 


用 数据 解答 这 个 问题 的 另 一 种 万 法 是 寻找 “代理 ” (proxy) ， 也 器 是 一 些 指标 ， 这 些 指标 本 身 并 不 是 和 直接 用 来 衡量 这 个 产品 受 欢 迎 的 程 
度 ， 但 它们 和 受 欢 迎 程度 是 紧密 相关 的 。 如 果 受 欢迎 程度 的 含义 是 人 们 喜爱 一 种 产品 超过 其 他 的 同类 产品 ， 那 么 电 商 网 站 上 的 销售 统计 数据 束 
可 以 是 受 欢 迎 程度 的 一 个 间接 衡量 指标 。 这 些 统计 数据 通常 会 包括 所 有 上 架 手 机 的 销售 排名 。 那 么 ， 代 表 性 的 问题 又 来 了 : 一 方面 是 关于 上 架 
手机 的 (会 不 会 有 一 些 手机 没 上 架 ， 因 为 该 电 商 网 站 上 没有 对 它 进行 销售 ? ) ， 另 一 方面 是 天 于 客户 的 〈 在 网 上 买 手机 ， 尤 其 是 在 特定 的 电 商 
网 站 上 买 手机 的 是 哪些 人 ? ) 。 但 不 管 怎样 ， 这 个 排名 确实 提供 了 关于 手机 市 场 的 一 个 更 全 面 的 印象 : 很 可 能 比 在 合理 成 本 下 进行 的 任何 客户 
调查 有 希望 达到 的 全 面 程度 更 高 。 获 取 全 新 信息 的 能 力 大 概 是 使 用 在 线 数 据 最 重要 的 依据 ， 因 为 它 让 我 们 能 解答 新 的 问题 ， 或 对 现 有 问题 获得 
更 深刻 的 理解 。 当 然 ， 对 于 这 些 新 的 价值 ， 与 之 俱 来 的 是 关于 数据 质量 的 新 问题 ， 即 不 同年 代 的 手机 能 不 能 放 在 一 起 比较 ,我们 能 否 评 价 这 种 
排名 的 稳定 性 ? 在 很 多 情况 下 ， 对 数据 源 的 选择 是 对 其 优点 和 务 势 、 准 确 性 和 完整 性 、 覆 薪 度 和 有 效 性 等 因素 的 权衡 。 


忆 结 一 下 ， 要 决定 为 你 的 应 用 采集 哪些 数据 并 非 易 事 。 我 们 推荐 用 5 个 步骤 来 帮助 指导 你 的 数据 采集 流程 : 


. 要 了 解 自 己 所 需 的 到 底 是 何 种 信息 。 这 种 信息 可 能 是 明确 的 (“经 合 组 织 所 有 国家 过 去 10 年 的 GDP”) ， 也 可 能 是 模糊 的 (“消费 者 对 XX 
公司 出 品 的 新 手机 的 看 法 ” “美国 参议 院 议员 之 间 的 合作 关系 ”) 。 


: 确定 网 上 是 否 有 数据 源 提供 了 和 你 的 问题 直接 或 间接 相关 的 信息 。 如 果 你 在 寻找 确定 的 事实 ， 这 可 能 会 比较 容易 做 到 。 如 果 你 感 兴趣 的 


是 相对 模糊 的 概念 ， 那 就 会 困难 一 些 。 


` 一 个 国家 的 大 使 馆 主页 可 能 是 了 解 其 外 交 政 策动 态 很 有 价值 的 信息 来 源 ， 这 些 政 策动 态 往 往 隐 藏 在 外 交 冬 令 的 幕布 之 后 。Twittet 帖 子 可 


能 涵盖 了 几乎 所 有 问题 的 与 论 方向 ， 电 商 平 台 可 以 告诉 我 们 客户 对 产品 的 满意 度 ， 房 产 网 站 上 的 租金 数据 可 能 反映 了 城市 各 地 段 当 前 的 热 


. 在 寻找 潜在 数据 源 的 同时 ， 制 定 一 套数 据 生成 流程 的 准则 。 数 据 是 什么 时 候 产 生 的 ， 是 什么 时 候 上 传 到 网 络 的 ， 是 谁 经 手 的 ? 是 否 有 洪 
在 的 领域 没有 履 盖 到 、 不 一 致 或 不 准确 ， 你 是 否 有 能 力 甄 别 并 纠正 它们 ? 


- 在 数据 源 的 优点 和 劣势 之 间 进 行 权衡 。 相 关 的 影响 因素 包括 可 用 性 (还 有 合法 性 ! ) 、 采 集成 本 、 新 数据 源 和 现 有 研究 主题 的 兼容 性 ， 
还 有 非常 主观 的 因素 ， 例 如 ， 其 他 人 对 该 数据 源 的 接受 程度 。 另 外 ， 考 虑 一 下 检验 数据 质量 的 可 能 途径 。 是 否 有 其 他 独立 的 数据 源 可 以 提供 类 
似 的 信息 ， 使 随机 的 交叉 检验 成 为 可 能 ? 对 于 二 手数 据 ， 你 是 否 能 确定 原始 数据 源 并 检查 数据 转换 的 错误 ? 


做 出 决定 ! 选择 看 起 来 最 适合 的 数据 源 ， 记 录 你 做 出 决定 的 原因 ， 并 开始 数据 的 预 处 理 。 如 果 可 行 ， 要 从 多 个 数据 源 采 集 数据 用 于 检验 
数据 源 。 对 于 多 数据 源 采 集 策略 ， 只 有 在 实际 采集 工作 开始 之 后 ， 很 多 问题 和 好 处 才 会 浮现 出 来 。 


1.3 传播、 提取 和 保 仔 网 络 数据 的 技术 


从 网 络 采集 数据 并 不 总 是 像 前 面 的 入 门 例 子 里 摘 述 得 那么 简单 。 在 数据 保存 在 比 HTML 表 格 更 复杂 的 结构 里 的 情况 下 、 在 网 页 是 动态 生成 
的 情况 下 或 当 需要 从 纯 文本 中 提取 信息 的 时 候 ， 困 难 融 冒 出 来 了 。 用 R 进 行 目 动 化 的 数据 采集 会 涉及 一 些 学习 成 本 ， 这 主要 意味 着 你 必须 掌握 一 
套 网 络 和 网 络 相关 技术 的 基础 知识 。 不 过 ， 在 讲解 这 些 基础 工具 的 内 容 中 ， 我 们 会 尽 可 能 着 重 于 讲解 网 络 抓 取 和 文本 挖掘 的 必要 基础 知识 ， 
忽略 掉 关 系 不 大 的 细节 。 要 编写 民 好 的 网 络 抓 取 程 序 ， 成 为 所 有 了 网络 技 术 的 专家 绝 不 是 必需 的 条 件 。 


要 用 R 在 网 络 上 进行 数据 采集 ， 有 三 个 技术 领域 是 很 重要 的 。 图 1-4 给 出 了 这 三 个 领域 的 概况 。 在 本 章 余下 的 部 分 里 ， 我 们 会 逐个 介绍 这 些 
领域 并 对 它们 之 间 的 各 种 联系 进行 说 明 。 这 有 助 于 你 在 学 习 本 书 第 一 部 分 的 基础 知识 时 保持 安 观 的 视野 ， 然 后 再 继续 学 习 本 书 第 二 部 分 ， 即 实 
际 的 网 络 抓 取 任务 。 
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图 1-4 传播、 提取 和 保存 网 络 数 据 的 技术 


1.3.1 在 网 络 上 传播 内 容 的 技术 


我 们 涉及 的 第 一 个 核心 内 容 是 在 网 络 上 发布 内 容 的 技术 。 数 据 传播 有 多 种 方式 ， 但 与 这 个 核心 内 容 关 联 度 最 高 的 是 XML/HTML、AJAX 和 
JSON (图 1-4 左 边 的 一 列 ) 。 


对 于 在 网 络 上 浏 蜗 ， 在 屏幕 之 后 有 个 隐藏 的 标准 ， 它 定义 了 信息 显示 万 式 的 结构 ， 这 融 是 “ 超 文 本 标记 语言 ” (HTML) 。 不 过 我 们 是 在 
维基 百科 上 查阅 资料 ， 在 Google 上 搜索 站 点 ， 查 看 我 们 的 银行 账号 ， 还 是 在 Twitter、Facebook 或 YouTube 上 进行 社交 ， 使 用 浏览 器 就 意味 着 
使 用 HTML。 昌 然 HTML 不 是 一 种 专用 的 数据 存储 格式 ， 但 它 往往 包含 了 我 们 所 感 兴趣 的 信息 。 我 们 会 在 文本 、 表 格 、 列 表 、 链 接 或 其 他 结构 里 
寻找 数据 。 遗 憾 的 是 ， 数 据 在 浏览 器 里 展示 的 方式 和 它们 在 HTML 代 码 里 存放 的 方式 是 有 差异 的 。 为 了 从 网 上 自动 化 采集 数据 并 用 R 处 理 它们 ， 
对 HTML 及 其 信息 存放 方式 的 基本 理解 是 必 不 可 少 的 。 我 们 在 第 2 章 里 会 从 网 络 抓 取 程序 的 角度 对 HTML 进 行 介绍 。 


可 扩展 标记 语言 (XML) 是 最 流行 的 网 络 数据 交换 格式 。 从 都 是 标记 语言 的 方面 来 看 ， 它 和 HTML 算 是 近亲。 不 过 ，HTML 是 用 于 定义 信息 
的 显示 ， 而 XML 的 主要 用 处 是 存放 数据 。 所 以 襄 ，HTML 网 页 用 于 给 浏览 器 解析 并 转化 成 漂亮 的 输出 效果 ， 而 XML "NE" APR eM ins 
内 部 的 打包 数据 。 用 尸 目 定义 标签 使 XML 远 远 比 HTML 更 适合 存放 数据 。 近 年 来 ，XML 及 其 衍生 物 ， 即 所 谓 的 “模式 ” (scheme), BEW 
络 应 用 的 各 种 数据 交换 中 大 行 其 道 。 因 此 ， 当 你 从 网 络 采集 数据 时 ， 熟 悉 基 本 的 XML 知识 是 很 重要 的 ( 见 第 3 章 ) 。HTML 和 XML 风格 的 文档 都 
提供 了 用 于 存放 数据 的 结构 ， 这 种 结构 是 自然 的 ， 通 常 也 是 分 层 的 。 为 了 识别 和 解析 这 种 结构 ， 我 们 就 需要 能 “理解 ”并 充分 处 理 这 种 语言 的 
软件 。 必 要 的 工具 ， 也 融 是 解析 器 (parser) ， 会 在 第 2 章 和 第 3 章 介绍 。 


另 一 个 网 络 弟 单 用 到 的 标准 数据 保 仔 和 交换 格式 是 “Javascript 对 象 标 iP” (JSON) 。 类 似 于 XML，JSON 也 被 用 于 大 量 互 联网 应 用 ， 为 
Web 开 上 友 者 提供 数据 。 想 象 一 下 ，XML 和 Js3ON 都 是 为 纯 文 本 数据 定义 容器 的 标准 。 例 如 ， 如 果 开 上 友 者 要 分 析 Twitter 上 的 热点 ， 融 可 以 从 
Twitter 设 置 的 一 个 以 JSON 格 式 分 友信 息 的 接口 来 收集 必要 的 数据 。 之 所 以 数据 的 分 友 优 先 玉 用 XML 或 JSON 格 式 ， 主 要 是 因为 这 两 种 格式 兼容 
了 很 多 编程 语言 和 软件 ， 包 括 R 在 内 。 由 于 数据 提供 者 无 法 知道 后 期 处 理 这 些 信息 的 会 是 什么 软件 ,合适 的 方案 束 是 所 有 参与 方 都 以 普遍 接受 的 
标准 格式 来 发 布 数据 。 JSON 的 逻辑 会 在 3.2 节 介绍 。 


AJAX 是 一 组 已 经 紧密 集成 到 现代 Web 开 上 友 工 具 集中 的 技术 。 在 让 网 站 能 支持 从 浏览 器 会 话 (session) 后 台 异 步 请 求 数据 并 以 动态 风格 更 
新 其 视觉 呈现 方面 ，AJAX 扮 演 了 举足轻重 的 角色 。 虽 然 现 代 Web 应 用 的 复杂 精巧 要 大 大 归功 于 AJAX， 但 这 些 技术 对 于 网 络 抓 取 程序 融 很 讨厌 
了 ， 我 们 用 标准 的 R 工 具 会 很 快 撞 进 一 个 死胡同 里 。 第 6 章 会 专门 讨论 JavaScript 和 XMLHttpRequest 这 两 项 关键 的 技术 ， 并 讲解 用 AJAX 改 进 的 
网 站 是 如 何 偏离 经 典 的 HTML/HTTP 人 逻辑 的 。 我 们 还 会 讨论 针对 这 类 问题 的 一 个 解决 办 法 ,借助 浏览 器 集成 的 Web 开 发 者 工具 在 浏览 器 内 部 进 
行 更 深入 的 探寻 。 


我 们 抓 取 网 络 信息 的 时 候 经 常会 处 理 纯 文本 数据 。 从 某 种 意义 上 来 说 ， 纯 文本 是 每 个 HTML、XML 和 JSON 文 档 的 一 部 分 。 我 们 希望 强调 的 
关键 问题 是 ， 纯 文本 是 非 结构 化 数据 ， 人 至少 对 逐 行 读 取 文本 文件 的 计算 机 程序 来 说 是 这 样 的 。 对 于 纯 文本 数据 ， 本 书 中 没有 安排 专门 的 章节 进 
行 介绍 ， 但 第 8 章 给 出 了 有 关 如 何 从 这 类 数据 中 提取 信息 的 指南 。 


为 了 从 网 络 查 找 数据 ， 我 们 必须 让 电脑 能 够 与 服务 器 和 和 Web 服务 进行 通信 。Web 通 信 的 通用 语 是 超 文 本 传输 协议 〈 即 HTTP) 。 这 是 客户 
问 和 服务 器 之 间 最 常用 的 通信 标准 。 实 际 上 ， 我 们 打开 的 每 个 HTML 页 面 、 在 浏 虱 器 上 看 到 的 每 个 图 片 、 观 看 的 每 个 视频 ， 都 是 通过 HTTP 传 输 
的 。 尽 管 我 们 一 直 在 使 用 这 个 协议 ， 但 我 们 大 部 分 人 都 不 会 注意 到 它 ， 因 为 HTTP 交 换 通 常 是 由 电脑 进行 的 。 我 们 会 从 本 书 中 了 解 到 ， 对 很 多 基 
本 的 网 络 抓 取 应 用 来 说 ， 我 们 不 需要 天 心 HTTP 协 议 的 细节 ， 因 为 R 可 以 很 好 地 接手 大 部 分 的 任务 。 不 过 ， 在 某 些 情况 下 ， 我 们 需要 深入 该 协议 
内 部 ， 构 造 更 高 级 的 Web 请 求 来 获取 所 寻找 的 信息 。 因 此 ，HTTP 协 议 的 基本 概念 是 第 ? 章 的 主题 。 


1.3.2 ”从 Web 文 档 中 提取 信息 的 扩 术 


要 从 我 们 收集 的 文档 中 僵 找 信息 ， 束 需要 用 到 网 络 数 据 米 集 的 第 二 个 核心 技术 内 容 了 。 对 应 于 收集 文档 使 用 的 不 同 技术 ， 有 不 同 的 工具 适 
用 于 从 这 些 来 源 抽取 数据 (图 1-4 的 中 间 列 ) 。 本 节 会 对 这 些 可 用 的 工具 进行 简介 。 使 用 R 进 行 信息 提取 的 一 大 优势 是 我 们 可 以 在 R 的 环境 内 部 
使 用 这 些 技术 ， 即 使 某 些 技 术 并 非 R 专 用 ， 而 是 通过 一 套 组 件 来 实现 的 。 


我 们 手头 的 第 一 个 工具 是 XPath 查询 语言 。 它 是 用 来 从 如 HTML、XML 及 其 变 体 (如 SVG 或 RSS) 之 类 的 标记 文档 中 选择 特定 信息 片段 的 。 
在 一 个 典型 的 网 络 数 据 抓 取 任 务 中 ， 要 获得 结构 良好 而 且 整 洁 的 数据 集 ， 调 取 网 页 是 一 项 重要 但 通常 只 是 中 间 的 步 又。 为 了 充分 利用 网 络 这 一 


近乎 无 穷 无 尽 的 数据 源 的 好 处 ， 一 旦 相关 的 网 络 文档 被 确定 并 下 载 ， 我 们 还 必须 进行 一 系列 的 过 滤 和 提取 步骤 。 这 学 步骤 的 主要 目的 是 把 保 仔 
在 标记 文档 中 的 信息 重 塑 为 适合 用 统计 软件 进行 后 期 处 理 和 分 析 的 格式 。 这 一 任务 包括 确定 我 们 感 兴趣 的 数据 并 确定 它 在 特定 的 文档 中 的 位 
置 ， 然 后 对 相应 文档 定制 一 个 查询 来 提取 我 们 想 要 的 信息 。XPath 会 被 作为 执行 这 些 任务 的 一 种 选项 在 第 4 章 进 行 介绍 。 


相 比 HTML 或 KML 文档，JSON 文 档 更 为 轻 量 级 ， 也 更 易于 解析 。 要 从 JSON 中 提取 数据 ， 我 们 无 须 使 用 特定 的 查询 语言 ， 依 赖 R 的 高 级 遂 数 
就 能 很 好 地 解码 JSON 数 据 。 我 们 会 在 第 3 章 说 明 它 的 用 法 。 


从 利用 AJAX 技 术 生 成 的 网 页 中 提取 信息 是 一 个 更 高 级 、 更 复杂 的 场景 。 作 为 从 R 控 制 台 初 始 化 Web 请 求 的 有 力 蔡 代 方案 ,我 们 要 推出 
Selenium 框 架 ， 把 它 作为 处 理 网 络 数据 的 一 种 实用 方案 。selenium 让 我 们 能 通过 R 向 浏览 器 窗口 引入 一 些 命令 ， 例 如 ， 鼠 标点 击 或 键盘 输入 。 
通过 在 浏览 器 中 直接 操作 ，Selenium 能 够 避免 一 些 与 采用 AJAX 技 术 所 生成 的 网 页 相关 的 问题 。 我 们 会 在 9.1.9 节 的 一 个 数据 抓 取 案 例 中 介绍 
Selenium。 该 节 会 借助 一 个 实际 应 用 来 讨论 Selenium 框 架 以 及 R 的 Web 驱 动 组件 。 


网 络 抓 取 的 一 项 核心 任务 是 从 大 量 的 文本 数据 中 采集 与 我 们 研究 的 问题 相关 的 信息 。 我 们 通 单 会 天 心 文本 数据 中 的 系统 性 元 素 ， 特 别 是 在 
我 们 需要 对 结果 数据 运用 量化 分 析 方 法 的 情况 下 。 系 统 性 结构 可 能 是 数字 或 名 字 ， 如 国家 或 地 址 。 能 用 来 提取 信息 中 的 系统 性 组 成 部 分 的 一 种 
技术 融 是 正则 表达 式 。 本 质 上 说 ， 正 则 表达 式 残 是 能 够 匹配 文本 中 固定 并 重复 出 现 的 模式 的 一 些 抽 象 字 符 串 序列 。 除 了 使 用 它们 从 纯 文本 文档 
中 提取 内 容 ， 我 们 还 可 以 将 其 应 用 到 HTML 和 XML 文档 中 ， 来 识别 并 提取 我 们 感 兴趣 的 文档 片段 。 昌 然 对 标记 文档 来 况 ， 使 用 XPath 得 询 往往 是 
更 好 的 方法 ， 但 是 如 果 需 要 的 信息 是 藏 在 最 底层 的 原子 级 数据 中 的 ， 正 则 表达 了 式 融 能 起 作用 了 。 此外， 如 果 相 关 的 信息 是 分 散在 整个 HTML 网 
页 中 的 ， 某 些 探索 文档 结构 和 标记 的 方法 可 能 会 变 得 无 效 。 在 第 8 章 会 详细 讲解 正则 表达 式 在 R 中 是 如 何 工作 的 。 


除了 从 文本 数据 中 以 数字 或 名 字 的 形式 提取 有 意义 的 信息 ， 我 们 手头 还 有 第 二 项 技术 ， 即 文本 挖掘 (text mining) 。 运 用 这 类 程序 可 以 让 
研究 者 基于 所 使 用 词句 的 相似 性 来 对 非 结 构 化 文本 进行 分 类 。 要 理解 文本 挖掘 的 概念 ， 你 可 以 考虑 一 下 字面 信息 和 隐 含 信息 的 不 同 之 处 。 前 者 
摘 述 的 是 具体 关联 到 特定 术语 的 信息 ， 例 如 ， 一 个 地 址 或 一 种 温度 计量 单位 ， 后 者 则 是 指 不 包含 在 文本 内 容 中 的 文字 标签 。 例 如 ， 在 分 析 一 组 
新 闻 报 道 时 ， 人 类 读者 能 够 把 它们 划分 到 特定 的 主题 类 别 中 ， 如 政治 、 媒 体 或 运动 。 文 本 挖掘 过 程 提供 了 对 文本 进行 自动 化 分 类 的 解决 方案 。 
这 在 分 析 网 络 数据 时 尤其 有 用 ， 这 些 网 络 数 据 通常 是 以 无 标签 、 非 结构 化 的 文本 形式 出 现 的 。 我 们 会 在 第 10 章 详细 介绍 几 种 这 方面 现 有 的 技 
Ñ. 


1.3.3 ”数据 保存 的 技术 


最 后 ， 网 络 数 据 采集 的 第 三 个 核心 技术 是 处 理 数 据 保存 的 手段 (图 1-4 的 右 列 ) 。R 通 常 是 非常 适合 管理 数据 保存 (比如 数据 库 ) 技术 的 。 
忌 体 而 言 ， 信 息 提 取 技 术 和 | 数据 保存 技术 之 间 的 关联 并 不 是 那么 明显 。 最 好 的 保存 数据 万 法 未 必 和 它 的 来 源 有 关系 。 


如 在 线 购物 、 浏 览 图 书馆 目录 、 汇 款 或 在 超市 购买 两 包 糖 果 这 样 简 单 的 日 常 过 程 都 涉及 了 数据 库 。 我 们 很 少 意识 到 数据 库 扮演 了 如 此 重要 
的 角色 ， 这 是 因为 我 们 并 不 直接 和 它们 交互 一 一 数据 库 喜 欢 在 幕后 工作 。 对 一 个 项 目 来 说 ， 只 要 数据 是 关键 因素 ， 网 络 管 理 员 束 会 依靠 数据 
库 ， 这 是 因为 数据 库 具 有 可 靠 性 、 效 率 、 多 用 户 访问 、 近 乎 无 限 的 数据 容量 以 及 远程 访问 的 能 力 。 对 上 自动 化 数据 采集 而 言 ， 数 据 库 备 受 天 注 的 
原因 有 两 个 : 一 是 我 们 偶尔 可 能 会 被 授权 直接 访问 数据 库 ， 所 以 应 该 为 此 做 好 准备 ; 二 是 虽然 RA 有 很 多 数据 管理 工具 ， 但 有 时 可 能 把 数据 保存 到 
数据 库 里 比 保存 在 某 种 本 地 文件 格式 里 要 好 。 例 如 ， 如 果 你 在 从 事 一 个 项 目 ， 项 目 里 的 数据 需要 做 成 能 在 线 访问 的 ; 或 者 你 有 多 个 合作 方 ， 他 
们 各 上 自 为 你 搜集 特定 的 一 部 分 数据 ， 一 套数 据 库 束 能 提供 必要 的 基础 架构 。 此 外 ， 如 果 你 需要 采集 的 数据 量 很 大 ， 而 且 经 常 给 数据 分 组 并 进行 
操作 ， 设 置 一 套数 据 库 也 是 靠 谱 的 做 法 ， 因 为 对 它们 进行 查询 的 速度 就 会 很 快 。 对 于 数据 库 的 很 多 优势 ， 我 们 会 在 第 7 章 介 绍 ， 并 把 SQL 作 为 主 
要 的 数据 库 访 问 和 通信 语言 进行 讨论 。 





不 过 ,在 很 多 情况 下 普通 的 R 数 据 保存 技术 束 够 用 了 ， 例 如 ， 用 二 进 制 或 纯 文本 格式 导入 和 导出 数据 。 在 第 11 草 ， 我 们 会 讲解 网 络 抓 取 忌 体 
工作 流程 的 一 些 细节 问题 ， 包 括 数 据 管理 任务 。 


14 本 书 的 结构 


我 们 在 写 这 本 书 的 时 候 ， 心 里 一 直 想 着 广泛 的 各 种 读者 需求 。 人 各 有 志 ， 加 上 使 用 R 的 经 验 也 不 同 ， 你 既 可 以 从 封面 一 直 读 到 封底 ， 也 可 以 
单独 选择 对 完成 手头 工作 有 用 的 一 个 小 节 。 


` 如 果 你 具备 R 的 基本 知识 但 不 熟悉 任何 网 络 常用 的 脚本 语言 ， 你 就 可 以 按部就班 地 跟着 本 书 学 习 。 


` 如 果 你 已 经 有 了 一 些 文 本 数据 并 需要 从 中 提取 信息 ， 你 可 以 从 第 8 草 (介绍 正则 表达 式 和 基本 字符 串 沪 数 ) 开始 ， 再 加 上 第 10 章 (介绍 统 
计 性 文本 处 理 ) o 


- 如 果 你 主要 对 网 络 抓 取 技术 感 兴趣 ， 但 抓 取 文本 数据 除外 ， 你 应 该 可 以 整个 跳 过 第 10 章 。 不 管 是 哪 种 情况 ， 我 们 都 推荐 阅读 第 8 章 ， 因 为 
文本 操作 的 基本 技术 也 是 网 络 抓 取 的 基础 。 


. 如 果 你 是 一 位 教师 ， 你 应 该 可 以 把 本 书 作 为 基础 或 补充 教材 。 为 此 我 们 在 第 一 部 分 和 第 二 部 分 的 大 部 分 章节 之 后 都 提供 了 一 套 练 习题 。 
在 本 书 的 官网 www.fdatacollection.com 上 有 一 半 左 右 练 习题 的 参考 答案 ， 这 样 你 就 可 以 用 它们 布置 作业 或 作为 考试 题 。 


对 于 所 有 其 他 读者 ,我们 希望 你 也 能 发 现 本 书 的 结构 是 有 所 帮助 的 。 下 面 就 是 本 书 三 个 部 分 的 简单 概述 。 


在 第 一 部 分 ， 我 们 会 介绍 在 互联 网 上 通信 、 交 换 、 保 存 和 显示 信息 的 基础 技术 (HTTP, HTML, XML, JSON, AJAX, SQL) ， 并 讲解 用 
于 查询 网 络 文 档 和 数据 集 的 基本 技术 (XPath 和 正则 表达 式 ) 。 这 些 基 础 技术 对 于 那些 还 不 熟悉 网 络 架构 的 读者 尤其 有 用 ， 如 果 你 已 经 有 一 些 
这 万 面 的 知识 ， 用 它 温 改 知 新 也 是 可 以 的 。 本 书 第 一 部 分 明确 看 重 介绍 数据 提取 相关 的 基本 概念 ， 本 书 其 他 部 分 都 会 用 到 它们 ， 并 提供 大 量 的 
练习 让 读者 快速 适应 这 些 技术 。 


本 书 第 二 部 分 由 三 个 核心 章节 组 成 。 第 一 个 核心 章节 讲解 了 多 种 网 络 抓 取 技 术 ， 即 正则 表达 式 的 使 用 、XPath、 各 类 API 接 口 、 其 他 数据 类 
型 以 及 开源 社区 相关 的 技术 。 我 们 展示 了 一 组 常见 场景 ， 并 针对 这 些 任 务 运用 了 流行 的 R 组 件 。 我 们 还 会 讨论 网 络 抓 取 的 法 律 层 面 的 问题 ， 并 针 
对 如 何在 网 络 上 行为 得 体 给 出 了 忠告 。 第 二 个 核心 草书 是 用 于 统计 性 文本 处 理 的 技术 。 数 据 常 常 是 以 文本 的 形式 获得 的 ， 需 要 进一步 解析 才能 
适用 于 后 续 分 析 。 我 们 会 讲解 统计 性 文本 处 理 的 两 种 主要 万 法 〈 监 督 与 非 监督 文本 分 类 ) 的 多 种 实现 技术 ， 并 演示 隐 式 信息 是 如 何 提取 出 来 
的 。 在 第 三 个 核心 章节 ， 我 们 会 给 出 关于 用 R 管 理 数据 的 项 目 中 常见 问题 的 一 些 见解 。 我 们 会 讨论 如 何 利用 文件 系统 ， 如 何 利用 循环 提高 编程 交 
率 ， 如 何 组 织 网 络 抓 取 过 程 ， 以 及 如 何 安 排 定 期 执行 的 抓 取 任 务 。 


在 本 书 第 三 部 分 ,我们 会 提供 一 组 应 用 ， 把 第 一 部 分 和 第 二 部 分 所 介绍 的 技术 进行 实际 运用 。 每 个 案例 分 析 的 开头 是 相关 分 析 内 容 的 简短 
需求 和 目标 。 相 比 之 前 的 技术 型 章节 ， 该 部 分 的 案例 分 析 会 深入 更 多 细节 中 ， 并 讨论 更 广泛 的 一 些 问题 。 另 外 ， 这 些 案 例 分 析 还 会 针对 日 常 的 
数据 抓 取 和 文本 处 理 的 工作 流程 、 真 实 环 境 数据 中 的 陷阱 以 及 规避 它们 的 方法 等 问题 提供 一 些 实用 的 见解 。 这 部 分 还 包含 了 案例 分 析 内 容 的 一 
网 表 ， 其 中 包括 从 网 络 或 文本 中 提取 数据 用 到 的 关键 拷 术 的 视图 ， 以 及 这 些 任务 会 用 到 的 关键 组 件 和 函数 。 


第 一 部 分 ”网络 和 数据 扩 术 入 上 





第 2 章 HTML 

第 3 章 XML 和 JSON 
第 4 章 XPath 

第 5 章 HTTP 

第 6 章 AJAX 


Fal ”SQL 和 关系 型 数据 库 


第 2 草 HTML 


在 网 络 上 浏览 时 ， 我 们 阅读 和 操作 的 几乎 所 有 内 容 的 背后 都 隐藏 着 一 个 标准 : 超 文 本 标记 语言 (Hyper Text Markup 
Language, HTML) 。 不 管 是 我 们 在 维基 百科 上 查找 信息 ， 在 Google 搜 索 站 点 ， 查 看 我 们 的 银行 账号 ， 还 是 在 Twitter、Facebook 和 
YouTube 上 进行 社交 活动 ， 只 要 使 用 浏览 器 ， 就 在 使 用 HTML。 


HTML 是 一 种 用 于 展示 网 上 内 容 的 语言 ， 由 Tim Berners-Lee 于 1989 年 首次 提出 。 在 问世 之 后 ， 这 个 标准 经 历 了 持续 演化 ， 最 近 的 版 本 是 由 
万 维 网 联盟 (W3C) 和 网 络 超 文 本 应 用 技术 工作 组 (WHATWG) [制定 的 HTML5 标 准 。 尽 管 HTML 的 每 个 修订 版 都 会 提出 新 的 特性 并 重 构 旧 
的 特性 ， 但 是 HTML 网 页 的 基本 语法 在 这 些 年 并 没有 多 少 变化 ， 在 可 预见 的 未 来 应 该 也 会 保持 相对 稳定 ， 这 使 它 成 为 网 络 相关 工作 最 重要 的 标 
准 之 一 。 


本 章 会 从 网 络 数据 采集 者 的 角度 对 HTML 的 基础 知识 进行 介绍 。 我 们 会 学 习 如 何 使 用 浏览 器 显示 网 页 的 源 代码 并 查看 特定 的 HTML 元 素 ( 见 
2.1 节 ) 。 在 2.2 节 会 忌 体 分 析 标 记 语 言 的 逻辑 ， 以 及 HTML 作 为 标记 语言 具体 实例 的 语法 。 之 后 我 们 继续 讲解 HTML 中 最 重要 的 一 些 词 ;LL ( 见 2.3 
方 ) 。 最 后 ， 在 2.4 书 我 们 会 分 析 解 析 过 程 ， 即 重新 组 织 HTML 网 页 结构 和 语义 的 过 程 ， 以 及 这 个 过 程 是 如 何 帮 助 我 们 从 网 页 上 获取 信息 的 。 


1] W3C 负 责 为 网 络 技 术 制 定 标 准 。 它 是 由 Tim Berners-Lee 创 建 的 ， 现 在 有 几 十 位 工作 人 员 及 数 以 百 计 的 单位 会 员 (参见 www.w3.org) 。 在 本 书 
的 学 习 过 程 中 我 们 主要 接触 W3C， 原 因 就 是 他 们 推荐 的 技术 。 例 如 ，HTMI,、XML、HTTP 和 其 他 在 本 书 中 讨论 的 技术 都 是 由 W3C 推 荐 的 。W3C 
的 支持 对 于 网 络 开发 者 是 一 个 强烈 的 信号 ， 说 明 他 们 能 够 而 且 应 该 依赖 这 些 技术 。 


2.1 浏 贞 器 显示 及 源 代码 


其 实 HTML 文 件 无 非 一 些 纯 文本 而 已 : 它 可 以 用 任何 文本 编辑 器 打开 和 编辑 。 让 HTML 产 生 强 大 功能 的 是 它 的 标记 结构 。HTML 标 记 让 我 们 
能 定义 文档 的 某 些 部 分 作为 标题 显示 、 某 些 部 分 包含 链接 、 某 些 部 分 作为 表格 来 组 织 ， 还 有 其 他 多 种 形式 。 标 记 定 义 依赖 于 预先 定义 好 的 字符 
序列 ( 即 标签 ) 来 封 六 文本 部 分 。 标 记 会 告诉 浏览 器 (更 准确 地 说 是 解析 器 ， 见 2.4 节 ) 文档 的 结构 及 其 各 部 分 的 作用 。 


所 以 ， 你 在 浏览 器 里 看 到 的 并 不 是 HTML 网 页 ， 而 是 它 的 一 个 解释 。 让 我 们 用 一 个 小 例子 来 详细 说 明 这 个 思路 。 图 2-1 和 图 2-2 显 示 了 同一 
个 HTML 网 页 ， 即 OurFirstHTML.html。 图 2-1 显 示 该 文档 的 解释 版 本 ， 这 是 我 们 习以为常 的 形式 ， 而 图 2-2 显 示 了 该 文档 的 源 代 码 。 目 己 试 试 
看 。 用 你 的 浏览 器 访问 http://www.r-datacollection.com/materials/html/OurFirstHTML.html。 在 窗口 中 右键 点 击 并 从 下 拉 菜 单 中 选择 “ 查 
看 源 代 码 ”。 现 在 ， 你 还 可 以 看 看 其 他 的 网 站 并 查看 它们 的 源 代 码 。 在 正常 情况 下 没有 什么 理由 非 要 去 查看 源 代码 ， 但 对 在 线 数据 采集 工作 来 
说 ， 这 往往 是 很 天 键 的 。 顺 便 说 一 句 ， 在 本 章 的 讲解 过 程 中 ， 当 介绍 HTML 的 具体 格式 时 ， 我 们 会 引用 到 一 些 补充 文件 ， 它 们 都 可 以 


fhttp://www.r-datacollection.com/materials/html/#k2), 
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I am your first HT ML-hle! 





图 2-1 一 个 简单 HTML 网 页 的 浏览 器 视图 


] OurFirstHTML.html x WY 


œŒ fi D view-source:file:///C:/OurFirstHTMLhtr T? 


<html> 
<head> 
<title>First HIML</title> 
</head> 
<body> 
I am your first HIML-file' 
</body> 
</html> 











图 2-2 一 个 简单 HTML 网 页 的 源 代码 视图 


够 似 源 代码 里 的 很 多 信息 在 文档 的 解释 过 程 中 丢失 了 。 毕 竟 和 我 们 在 图 2-1 中 看 到 的 单个 句子 相 比 ， 源 代码 里 的 文本 要 多 得 多 。 实 际 上 ， 结 


构 性 信息 和 实质 性 内 容 两 者 之 间 ， 残 规模 而 言 显然 是 前 者 占 优 。 源 代码 中 相当 数量 的 文本 包含 的 是 给 浏览 器 的 指示 ， 这 些 内 容 是 不 会 显示 在 屏 
幕 上 的 。 然 而 ， 结 构 性 信息 也 有 一 部 分 实际 上 是 会 显示 的 ， 不 过 它 的 显示 方式 更 不 易 察 觉 。 看 一 下 图 2-1 中 浏览 器 分 页 的 标题 栏 。 页 面 标题 是 


First HTML， 它 在 源 代 码 中 被 定义 成 <title>First HTML<V/title> 。 这 惑 是 实际 起 作用 的 HTML 标 记 : “First HTML” 用 <title> 和 <V/title> 进 行 
标记 ， 它 融 补 定义 为 该 网 页 的 标题 。 


要 识别 源 代码 的 哪 部 分 对 应 于 浏览 器 窗口 里 的 哪些 元 素 (RIA) ， 我 们 可 以 使 用 元 素 检查 器 ， 它 在 大 部 分 浏览 器 中 都 可 以 实现 。 同 
上 ， 你 可 以 自己 尝试 一 下 。 在 我 们 之 前 打开 的 浏览 器 窗口 里 选中 某 个 句子 ， 在 窗口 里 右键 点 击 ， 并 从 下 拉 菜 单 里 选择 “检查 元 素 ”。 浏 览 器 
显示 对 应 于 所 选 元 素 的 HTML 网 页 片段 (如 图 2-3 所 示 ) 。 我 们 也 可 以 反 过 来 点 击 源 代码 片段 来 标 出 文档 解释 版 本 中 对 应 的 片段 。 你 还 可 以 尝试 
在 其 他 网 站 重复 上 述 步骤 并 开始 检查 元 素 。 


| ° First HTML 


C fi -7 


I am your first HTML--file! 


body 462px = 20px 


| Elements | Resources Network Sources Timeline Profiles Audits 


or z | Styles Computed » 
¥ <html> | 
ae element.style { + ii Ẹ- 全 
<body> | | 
I am your first HTML-file! | user agent stylesheet 
body 1 
disnlawv: hlari- 


body 





图 2-3 ”一 个 简单 HIML 网 页 的 元 素 查看 视图 


2.2 ”语法 规则 


既然 我 们 已 经 尝试 过 第 一 个 HTML 网 页 ， 了 解 了 网 页 的 解释 版 本 及 其 源 代码 的 差别 ， 现 在 更 深入 地 了 解 作为 HTML 基 础 的 一 些 规则 和 概 


<, [1] 


2.2.1 标签 、 元 素 和 属性 


纯 文 本 是 通过 浏览 器 可 解析 的 标签 转化 成 HTML 网 页 的 。 标 签 可 以 看 作 审 有 名 字 的 一 对 括号 ， 它 们 把 内 容 包 妆 在 里 面 并 定义 它 的 结构 化 功 
能 。 例 如 ， 在 我 们 前 面 的 入 门 例子 里 的 <title> 标 签 会 指定 其 中 包装 的 文本 作为 在 浏览 器 分 页 的 标题 栏 显示 的 标题 。 起 始 标签 、 内 容 和 终止 标签 
组 合 起 来 称 为 元 素 ， 如 下 所 示 : 


l <title>First HTML</title> 


起 始 标 签 和 终止 标签 也 被 称 为 开放 和 闭合 标签 。 标 签 通常 用 “<” 和 和 “>” 符号 包 起 来 ， 以 便 和 内 容 区 分 。 起 始 和 终止 标签 里 面包 含 相同 的 
名 字 ， 但 终止 标签 的 名 字 之 前 有 个 斜 杠 (/) 。 当 指示 一 个 元 素 的 时 候 ， 通 常会 忽略 大 于 号 和 小 于 号 ， 只 使 用 标签 内 部 的 名 字 ， 如 body 标 签 、 
title 标 签 等 。 我 们 有 时 会 发 现 元 素 和 标签 在 使 用 中 其 实 是 同 义 的 。 在 本 书 中 ， 我 们 会 引用 起 始 标 签 (如 <name>) 来 代表 整个 元 素 。 


里 然 推荐 的 做 法 是 每 个 元 素 都 有 一 个 起 始 标 签 和 一 个 终止 标签 ,但 这 并 不 是 对 所 有 的 元 素 类 型 都 普遍 适用 。 例 如 ，<br> 标 签 代表 换行 ， 它 
就 不 需要 用 一 个 </br> 标 签 来 闭合 。 有 些 标 签 也 可 以 通过 在 起 始 标 签 内 部 的 末尾 增加 一 个 斜 杠 来 闭合 ， 如 <body/>。 我 们 称 这 样 的 元 素 为 空 
素 ， 因 为 它们 不 包含 任何 内 容 。 否 则 它们 就 必须 写成 <body> </body> 的 形式 。 把 一 个 标签 写成 <tagname>、<TAGNAME>、<TagName> 
或 其 他 任何 大 小 写字 母 的 组 合 都 是 可 以 的 ， 因 为 标准 的 HTML 不 区 分 大 小 写 。 尽 管 如 此 ， 推 荐 的 做 法 是 永远 都 使 用 小 写字 母 ,， 如 <tagname>。 


标签 的 另 一 个 特性 是 属性 。 一 个 广泛 使 用 的 属性 如 下 所 示 : 


| <a href="http://www.r-datacollection.com/">Link to Homepage</a> 





这 个 链接 标签 <a> 能 够 把 相关 的 文本 (这 里 是 “Link to Homepage” ) 和 一 个 指向 另 一 个 地 址 的 超 链接 ( 即 http://www.r- 
datacollection.com/) 天 联 起 来 。href="http://www.r-datacollection.com/" 这 个 属性 措 定 销 链 接 。 浏 览 器 会 目 动 把 这 类 元 素 转 化 为 市 有 下 
划 线 并 且 可 以 点 击 的 样式 。 辟 体 而 言 ， 属 性 让 标签 能 够 描述 其 内 容 处 理 方式 的 选项 。 哪 些 属 性 可 以 使 用 是 根据 具体 的 标签 来 决定 的 。 


属性 总 是 位 于 起 始 标签 内 部 ， 标 签名 的 右 侧 。 一 个 标签 可 以 有 多 个 属性 ， 用 空格 分 开 。 属 性 用 名 字 - 取 值 的 配对 形式 表示 ， 如 
name="value"。 取 值 用 单 引 号 或 双 引 号 封闭 都 是 可 以 的 。 不 过 ， 如 果 属 性 值 本 身 已 经 包 售 了 一 种 引号 ， 就 只 能 用 另外 一 种 引号 封闭 这 个 属性 
值 。 


l <example quote='He sat down and spoke: "What?", he said.'> 
<example quote="He sat down and spoke: 'What?', he said."> 


N 





2.2.2 WIRA 


我 们 从 另外 一 个 角度 来 审视 图 2-4 里 OurFirstHTML.htmI 的 源 代码 。 先 暂时 忽略 <! DOC TYPE html>， 这 个 例子 里 的 第 一 个 元 素 束 是 
<html> 元 素 。 在 这 个 元 素 的 起 始 标 学 和 终止 标签 之 间 ， 又 有 几 个 标签 分 别 起 始 和 闭合 : <head> <title> 和 <body>。<head> 和 <body> 标 签 
是 直接 锐 <html> 元 素 包 含 的 ; 而 <title> 标 釜 则 包含 在 <head> 标 签 内 。 要 摘 述 一 个 HTML 网 页 的 这 种 多 层 结构 ， 用 树 来 进行 类 比 是 一 种 好 的 方 
式 。 图 2-5 摘 述 了 OurFirstHTML.html 的 简单 树 形 结构 。 <html> 元 素 是 根 元 素 ， 它 市 有 两 个 分 支 , 即 <head> 和 <body>。<head> 下 面 义 有 


另 一 个 叫 <title> 的 分 支 。 


<!DOCTYPE html> 
<html> 
<head> 
<title>First HTML</title> 
</head> 


<body> 
I am your first HTML file! 


</body> 
</html> 





图 2-4 ourFirstHTML.html 49 927K AS 


I am your first 


HTML-file! 





| 


C ciee) 


First 日 [ML 





图 2-5 OurFirstHTML html 的 树 形 表达 


在 结构 展 好 并 且 合 法 的 HTML 文 件 中 ， 所 有 元 素 相互 之 间 必 须 是 严格 蔚 僚 的 。 一 对 起 始 和 闭合 标签 必须 完全 包含 在 男 一 对 起 始 和 | 闭合 标签 
之 内 。 一 个 显然 违反 了 该 规则 的 例子 如 下 所 示 : 


<head> 

<title>Do not 
</head> 

do this</title> 


A W N = 


2.2.3 注释 


HTML 提 供 了 向 代码 中 插入 注释 的 能 力 ， 注 释 是 不 会 被 解析 的 ， 因 此 不 会 在 浏览 器 里 显示 出 来 。 注 释 的 标记 方式 是 用 <! -- 开 头 ， 并 用 --> 
结尾 。 在 这 两 组 字符 序列 之 间 的 所 有 文本 都 会 被 忽略 。 在 实践 中 ， 一 段 注释 如 下 所 示 : 


l <!-- Hi, I am a comment. 


I can span several lines and I am able to store additional 
content that is not displayed by the browser. --> 


N 





注意 ， 注 释 仍 然 是 文档 的 一 部 分 ， 任 何 查 看 页 面 源 代 码 的 人 都 可 以 看 到 它们 。 


224 保留 字符 和 特殊 字符 


保留 字符 在 语言 里 用 于 控制 目的 。 我 们 已 经 知道 ，HTML 内 容 是 用 纯 文本 编写 的 ， 对 于 文档 里 的 标记 和 内 容 部 分 都 是 如 此 。 因 为 有 些 字符 
是 标记 所 需要 的 ， 所 以 它们 不 能 原封 不 动 地 用 在 内 容 中 。 例 如 ， 我 们 已 经 知道 < 和 > 在 HTML 里 是 用 来 构成 标签 的 。 它 们 融 是 标记 字符 。 假 设 我 
们 要 在 浏览 器 里 显示 这 个 内 容 : 5<6but 7>3。 简 单 地 把 它们 放 到 HTML 文 件 里 是 不 行 的 ， 如 下 所 示 : 


| | «pos < 6 but 7 > 3 </p> 


因为 解析 器 会 把 < 和 > 解释 为 闭合 了 一 个 标签 名 。 为 了 在 浏览 器 窗口 里 原样 显示 这 些 字 符 ，HTML 依 赖 于 特定 的 字符 序列 ， 这 些 序列 叫 作 字 
符 实 体 (简称 实体 ) 。 所 有 的 实体 以 一 个 & 符 号 开头 ， 以 一 个 分 号 (; ) 结尾 。 这 样 ，< 和 > 融 能 以 它们 的 实体 表达 式 &It; 和 &gt; 放 到 文件 的 
内 容 中 了 。 在 解析 HTML 文 件 的 时 候 ， 浏 览 器 融会 显示 这 些 实体 代表 的 字符 。 因 此 ， 上 面 的 例子 残 需要 写成 如 下 格式 : 


1 <p>5 &lt; 6 but 7 &gt; 3 </p> 
因为 HTML 网 页 可 以 用 很 多 种 语言 编写 ， 而 这 些 语言 常常 会 包含 简单 拉丁 字符 之 外 的 字符 ,如 0、F 或 9， 所 以 会 有 份 很 长 的 实体 列表 ， 每 


条 都 以 一 个 & 符 号 开头 ， 以 一 个 分 号 (; ) 结尾 。 表 2-1 列 出 了 一 些 字 符 及 其 实体 表达 式 的 例子 。 注 意 ， 实 体 用 编号 或 名 称 来 写 都 是 可 以 的 。 


表 2-1 HTMLA 


F 符 实体 数字 x 体 名 解 RE 


Ra 
H 
(十 
jee 
Wi 


&#60; 


&#62 ; 大 于 号 


_ Ae 


Ra 
LQ 
ct 


pn 
= 
IO 

Os 
J 


实 体 名 解 释 


p 


&sect; J 


实体 数字 


N &#167; 


+i} 
3 


pa) 


A &#192; &Agrave; 沉重 音符 的 A 


E &#200; &Egrave; al Etr ITAY E 
&#224; &agrave; 审 重 音符 的 a 
é &#232; &egrave; 守重 音符 的 ee 
&hearts; iL 


羽毛 装饰 的 头 耕 (Phaistos FIE) 


Q &#9829; 


tS &#66001; 


注 : 要 获得 更 全 面 的 HIML 实 体 列 表 ， 请 访问 http://unicode-table.com。 


2.2.5 ”文档 类 型 定义 


回顾 一 下 本 章 刚 开始 的 那个 例子 ， 那 个 HTML 网 页 的 第 一 行 是 <! DOCTYPE html>。 它 包含 了 所 谓 的 文档 类 型 定义 (Document Type 
Definition, DTD) ，DTD 会 告诉 浏览 器 这 个 文档 所 遵循 的 是 哪个 版 本 的 HTML 标 准 。HTML 在 20 多 年 前 兴起 ， 从 那 时 开始 ， 它 经 历 了 一 些 规则 
的 重 塑 过 程 ， 如 果 文 档 的 HTML 版 本 不 作 明 确 声明 ， 那 么 规则 的 变化 可 能 会 导致 浏览 器 错误 解释 。 由 于 DTD 在 XML 中 扮演 了 更 关键 的 角色 ， 我 
们 把 对 这 个 概念 的 更 详细 说 明 推 后 到 3.3 节 进行 。 就 现在 而 言 ， 只 要 知道 DTD 可 以 在 HTML 网 页 的 第 一 行 找 到 (如 果 有 ) 就 可 以 了 。 一 个 多 种 
DTD 的 列表 如 下 所 示 : 


HTML 5 版 : 


l <!DOCTYPE HTML> 


严格 的 HTML 4.01 版 : 


1 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" 
"http: //www.w3.org/TR/html4/strict.dtd"> 


N 





2.2.6 ”空格 和 换行 


HTML 源 代码 中 的 空格 和 换行 不 会 直接 在 浏览 器 显示 中 转化 成 空格 和 换行 。 所 有 换行 都 会 锐 忽 上 略 ， 而 任何 数量 的 连续 空格 会 被 显示 为 一 个 
空格 。 如 果 要 强制 在 文档 的 解释 版 本 中 显示 多 个 间隔 ， 我 们 会 使 用 不 间断 空格 实体 &nbsp; ， 对 于 多 个 换行 则 使 用 换行 标签 <br>。 


l <p>Writing<br>&nbsp; &nbsp; &nbsp; code<br>&nbsp; &nbsp; &nbsp; &nbsp; 
2 nbsp; is<br>&nbsp; poetry</p> 


如 需 更 深入 了 解 该 主题 内 容 ， 请 参阅 本 书 相关 材料 中 的 SpacesAndLineBreaks.html。 


[1] 注意， 虽然 HIML 有 多 个 版 本 ， 而 且 你 可 能 会 碰 到 某 些 网 站 是 遵循 旧 标 准 的 ， 但 是 我 们 这 里 展示 的 都 是 符合 HTML5 规 范 的 文档 。 不 管 是 哪 种 


版 本 ， 对 数据 采集 的 目的 来 说 ， 它 们 之 间 的 差异 是 可 以 忽略 的 。 


2.3 ”标签 和 属性 


HTML 有 很 多 合法 的 标签 和 属性 ， 巡 个 对 它们 进行 讨论 远 远 超出 了 本 书 的 沁 围 。 实 际 上 ， 我 们 只 会 重点 介绍 一 部 分 在 网 络 数据 及 集 环境 中 
引 人 注 目的 标签 。 注 意 ， 如 果 不 是 另 有 明确 指定 ， 下 面 介绍 的 所 有 标签 的 例子 都 可 以 在 本 书 附 市 材料 的 TagExample.html 中 找到 |。 


2.3.1 iina <a> 
锁 标 签 <a> 让 HTML 网 页 能 链接 到 其 他 文档 ， 从 而 把 HTML 从 单纯 的 标记 语言 变 成 超 文 本 标记 语言 。 在 浏览 器 里 ， 一 个 网 站 到 另 一 个 网 站 的 
很 多 导航 就是 通过 销 元 素 起 作用 的 。 


我 们 经 常会 友 现 目 己 需要 提取 的 信息 不 是 位 于 蛙 个 页 面 ， 而 是 在 一 整套 页 面 里 。 如 果 我 们 足够 扯 运 ， 这 些 页 面 会 在 一 个 索引 页 面 全 部 列 出 
来 。 但 是 ， 更 弟 见 的 情况 是 ,我 们 必须 从 一 个 页 面 收集 指 向 下 一 个 页 面 的 链接 ， 然 后 从 下 一 个 页 面 找到 指向 再 下 一 个 页 面 的 链接 ， 以 此 类 推 ,。 
在 上 面 两 种 情况 下 ,我们 在 寻找 的 信息 一 一 男 一 个 页 面 的 位 置 一 一 都 保存 在 一 个 <a> 元 素 中 。 


事实 上 ，<a> 元 素 有 更 大 的 灵活 性 ， 它 们 不 仪 可 以 链接 到 其 他 文档 ， 还 可 以 链接 到 一 个 文档 的 特定 部 分 。 我 们 可 以 链接 到 文档 中 的 销 操 ， 
使 得 在 网 站 内 的 导航 更 加 方便 。 


让 我 们 来 看 看 TagExample.html。 目 前 该 HTML 网 页 中 最 让 我 们 感 兴趣 的 是 那些 蓝 色 的 带 有 下 划 线 的 文本 片段 ， 也 就 是 超 链接 。 这 里 应 该 
会 有 三 个 链接 : 一 个 指向 另 一 个 网 页 ， 另 外 两 个 分 别 指向 当前 网 页 的 顶部 和 底部 。 你 可 以 看 看 网 页 的 源 代码 或 者 下 面 的 列表 ， 了 解 这 些 功能 是 
如 何 实现 的 。 


` 链接 到 为 一 个 文档 : 


l <a href="en.wikipedia.org/wiki/List of lists of lists">Link with 


absolute path</a> 





用 


l <a id="top">Reference Point</a> 





` 链接 到 一 个 引用 点 : 


l <a href="#top">Link to Reference Point</a> 


链接 到 另 一 个 文档 的 一 个 引用 点 : 


1 <a href="http://en.wikipedia.org/wiki/List of pharaohs#New Kingdom"> 


Link to Reference Point</a> 





2.3.2 ”元 数据 标签 <meta> 


<meta> 标 签 是 位 于 HTML 网 页 的 <head> 元 素 内 的 一 个 空 标 签 。< meta> 元 素 无 须 闭合 ， 这 与 空 元 素 必须 用 一 个 冬 杠 (/) 闭合 的 总 体 规 
则 有 所 不 同 。 顾 名 思 义 ，<meta> 标 签 提供 了 HTML 网 页 的 元 信息 ， 回 答 了 类 似 如 下 的 问题 : 网 页 的 作者 是 谁 ? 采用 了 何 种 编码 方案 ? 是 否 有 一 


些 天 键 子 用 于 概括 网 页 的 特征 ? 网 页 中 用 到 的 语言 是 什么 ? 


总 体 而 言 ， 在 <meta> 元 素 里 会 有 两 个 属性 。 第 一 个 是 name 或 http-equiv， 第 二 个 永远 是 content。 把 name 作 为 第 一 个 属性 的 <meta> 
元 素 指 的 是 关于 文档 的 信息 ， 而 带 有 http-equiv 的 <meta> 元 素 则 定义 了 HTTP 处 理 该 文档 的 方式 ( 详 见 第 5 章 ) 。 下 面 是 展示 <meta> 不 同 用 
途 的 多 个 例子 。 要 观察 一 个 真实 的 HTML 网 页 里 的 <meta> 元 泰 ， 可 以 再 打开 TagExample.html。 一 些 常用 的 <meta> 标 签 的 用 途 如 下 所 示 : 


要 求 网 络 机 器 人 不 能 对 本 页 建 索引 或 追踪 其 中 的 链接 〈 关 于 网 络 机 器 人 ， 请 参见 9.3.2 节 ) : 


l <meta name="robots" content="noindex, nofollow"> 


- 声明 字符 编码 (从 HITML5 开 始 有 效 ) : 


l <meta charset="ISO-8859-1"/> 


定义 字符 编码 (HTMI5 出 现 之 前 ) : 


charset=ISO-8859-1"> 


] <meta http-equiv="content-type" content="text/html; 





2.3.3 外 部 引用 标签 <link> 


<link> 标 签 用 于 链接 并 引入 信息 及 外 部 文件 。 链 接 到 HTML 网 页 的 外 部 信息 包括 网 站 的 授权 信息 、 列 出 网 页 作者 的 文档 、 网 站 的 帮助 页 


面 、 在 浏览 器 分 页 栏 出 现 的 图 标 、 或 者 是 用 于 页 面 布 局 的 一 个 或 多 个 样式 表 等 。<link> 是 空 元 素 ， 在 <head> 元 素 内 部 使 用 。 所 有 信息 都 是 人 在 
属性 中 提供 的 。 最 常用 的 两 个 例子 如 下 所 示 : 


` 指定 使 用 的 样式 表 : 


l <link rel="stylesheet" href="htmlresources/awesomestyle.css" 
2 type="text/css"/> 





- 指定 网 站 相关 的 图 标 : 


l <link rel="shortcut icon" href="htmlresources/favicon.ico" 
2 type="image/x-icon"/> 





同样 ， 你 可 以 在 TagExample.htmI 的 源 代码 中 查看 对 应 的 内 容 。 注 意 ，rel 属 性 描述 的 是 当前 文档 和 链接 文档 之 间 的 关系 类 型 。href 属 性 则 
指定 外 部 文件 的 位 置 。type 属 性 描述 了 文件 在 MIME 模 式 中 所 属 的 类 型 。["] 


2.3.4 强调 标签 <b>、<i> 和 <strong> 
像 <b>、<i> 和 和 <strong> 这 样 的 标签 都 是 布局 标签 ， 分别 对 应 粗 体 、 和 斜体 和 加 重 的 强调 。 我 们 可 以 利用 在 强调 标签 里 的 信息 来 定位 具有 特 


定 布 局 的 内 容 。 假 设 某 文 档 含有 一 个 地 址 列表 ， 其 中 的 姓名 都 设 为 斜体。 查找 <i> 标 签 就 能 比较 容易 识别 出 有 用 的 信息 。 下 面 的 例子 描述 了 各 种 
布局 标签 的 用 法 。TagExample.html 展 示 了 它们 在 一 个 完整 的 HTML 网 页 中 的 应 用 。 


. 设置 为 粗 体 的 文本 : 
PRA RAY LA: 
- 设置 为 重要 的 文本 : 


l <strong>some text so important to be emphasized</strong> 


2.3.5 Bina <p> 


<p> 标 签 会 标记 其 中 包含 的 内 容 为 一 个 段落 ， 并 确保 在 其 中 内 容 的 前 后 都 有 换行 : 


] <p>This text is going to be a paragraph one day and separated from other 


text by line breaks.</p> 





2.3.6 ”标题 标签 <h1>、<h2>、<h3> 等 


为 了 定义 不 同 级 别 的 标题 





从 一 级 到 六 级 





HTML 提 供 了 一 系列 的 标签 <h1>，<h2>，...，<h6>。 一 些 示例 如 下 所 示 : 


<hl>heading of level 1 -- this will be BIG</hl1> 
<h2>heading of level 2 -- this will be big</h2> 


<h6>heading of level 6 -- the smallest heading</h6> 
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2.3.7 通过 <ul>、<ol> 和 <dl> 列 举 内 容 


有 几 种 标签 存在 的 意义 是 列举 内 容 。 它 们 的 用 法 取决 于 它们 是 用 来 包装 排序 列表 (<ol>) 、 非 排序 列表 (<ul>) ， 还 是 描述 列表 
(<dl>) 。 前 面 两 种 标签 利用 嵌 套 的 <li> 元 素来 定义 列表 项 ， 而 最 后 一 种 需要 另外 两 种 元 素 : <dt> 用 于 天 键 字 ，<dd> 用 于 它 的 描述 。 一 个 非 
排序 列表 的 例子 如 下 : 


<ul> 
<li>Dogs</li> 
<li>Cats</li> 
<li>Fish</li> 
</ul> 
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2.3.8 ”组织 型 标签 <div> 和 <span> 


另 一 个 定义 HTML 网 页 片段 的 显示 形式 的 方式 是 <div> 和 <span> 标 签 。 昌 然 <div> 和 <span> 本 身 不 会 改变 它们 包含 内 容 的 显示 形式 ， 但 
是 这 些 标签 可 以 用 于 把 文档 片段 组 织 起 来 : 前 者 用 于 定义 跨行 、 跨 标签 和 跨 段 的 分 组 ， 而 后 者 用 于 内 联 分 组 。 


HTML 网 页 的 分 组 片段 在 与 层 妓 样式 表 (Cascading Style Sheet, CSS) 配套 使 用 时 非常 方便 。CSS 是 一 种 用 于 描述 HTML 及 如 XML、 
SVG 和 XHTML 等 其 他 标记 文档 的 布局 的 语言 。 下 面 是 两 种 样式 的 定义 示例 。 第 一 种 样式 定义 应 用 于 所 有 具有 happy 类 (class) 属性 的 <div> 元 
素 ， 而 第 二 种 则 应 用 于 所 有 同类 的 <span> 元 素 : 


div.happy { color:pink; 
font-family:"Comic Sans MS"; 
font-size:120% } 

span.happy { color:pink; 
font-family:"Comic Sans MS"; 
font-size:120% } 
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样式 定义 一 般 保 存在 单独 的 CSS 文 件 里 ， 如 awesomestyle.css， 然 后 可 以 通过 <link> 标 签 在 HTML 网 页 的 标 头 (header) 引入 : 


l <link href="htmlresources/awesomestyle.css" 
rel="stylesheet" type="text/css"/> 


N 





之 后 ， 在 HTML 网 页 里 ， 可 以 通过 另 一 个 class 属 性 把 它们 传递 给 一 个 元 素 : 


l <div class="happy"><p>I am a happy styled paragraph</p></div> 


N 


non-happy text with <span class="happy">some happiness</span> 





除 此 之 外 ， 样 式 也 可 以 在 某 个 元 素 的 style 属 性 里 直接 定义 : 


<div 


style="color:pink; font-family:"Comic Sans MS"; font-size:120%"> 
<p>I am a happy styled paragraph</p></div> 
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CSS 的 用 途 是 把 内 容 和 布局 分 开 ， 以 此 改善 文档 的 可 用 性 。 在 HTML 网 页 外 部 定义 样式 并 通过 class 属 性 对 它们 进行 分 配 的 做 法 ， 让 网 站 设 
计 师 能 够 在 不 同 元 素 和 文档 中 重复 使 用 这 些 样式 。 这 样 能 让 开 友 者 只 需 在 一 个 地 方 一 一 即 CSS 文 件 内 部 一 一 改变 一 个 样式 ， 然 后 所 有 用 到 这 个 
样式 的 元 素 和 文档 都 会 产生 效果 。 





那么 ， 我 们 为 什么 要 关心 样式 呢 ? 首先， 样式 和 格调 在 英语 里 是 一 个 单词 ， 关 心 样式 束 是 关心 格调 。 人 嘛 ， 忆 是 必须 要 有 一 些 格调 的 。 不 
过 其 次 呢 ，CSS 对 开 友 者 来 说 太 方便 了 ， 所 以 <div>、<span> 和 和 class 标 签 是 经 常会 用 到 的 。 那 么 ，< div>、<span> 和 class 标 签 束 提供 了 
HTML 网 页 的 一 些 结构 ， 让 我 们 可 以 充分 利用 它 来 找到 我 们 需要 的 信息 的 存放 位 置 。 


2.3.9 <form> 标 签 及 其 同伴 


HTML 的 一 个 高 级 特性 是 表单 。HTML 表 单 比 纯 布局 内 容 的 用 途 更 广 。 它 们 让 用 户 能 以 发 送 数 据 的 方式 与 服务 器 进行 交互 ， 而 不 仅仅 只 是 从 
服务 器 接收 数据 。 表 单 是 由 <form> 标 签 引 入 的 ， 它 还 支持 其 他 一 些 标签 如 <fieldset>、<input>、<textarea>、<select> 和 <option>， 以 
及 和 它们 相关 的 一 些 属性 。 这 种 在 用 户 和 服务 器 之 间 进 行 的 双向 信息 交换 让 更 具 灵 活性 的 浏览 体验 成 为 可 能 。 我 们 日 常 使 用 表单 的 例子 有 类 似 
于 Google 这 样 的 搜索 引擎 。 我 们 在 一 个 文本 字段 里 输入 查询 条 件 ， 然 后 根据 我 们 发 送 的 查询 请 求 ， 会 出 现 一 个 新 的 网 页 。 让 我 们 继续 用 一 个 例 
子 来 解释 HTML 表 单 的 各 种 概念 。 下 面 的 代码 片段 是 本 书 材料 中 FormExample.html 的 一 个 片段 : 


<form name="submitPW" action="Passed.html" method="get"> 
password: 


<input name="pw" type="text" value=""> 
<input type="submit" value="SubmitButtonText"> 
</form> 
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上 面 例子 中 的 表单 由 一 个 <form> 元 素 和 钨 套 在 它 之 中 的 两 个 <input> 元 素 组 成 。<form> 标 签 有 一 个 name 属 性 、 一 个 action 属 性 以 及 一 
个 特定 的 method 属 性 。 表 单 的 name 是 作为 一 个 内 部 识别 符 。action 和 mehtod 属 性 则 定义 了 当 submit 按 钮 被 按 下 时 浏览 器 需要 进行 的 操作 。 
action 定 义 了 响应 的 位 置 。 


在 网 络 上 上 发送 请 求 和 接受 资源 最 党 用 的 协议 是 HTTP ( 超 文 本 传输 协议 ) 。method 属 性 用 于 表示 向 服务 器 发 送信 息 的 HTTP 方 法 。 最 常见 的 
方法 是 POST 或 GET。 暂 时 可 以 这 样 理解 : 当 使 用 GET 方 法 时 ， 友 送 到 服务 器 的 信息 是 附加 在 URL 后 面 的 。 反 之 ， 如 果 使 用 POST 方法 ， 数 据 融 不 
是 通过 请 求 URL 传 输 的 。 要 了 解 HTTP 方 法 的 细节 ， 请 参阅 第 5 章 内 容 。 


对 于 <input> 元 素 ， 我 们 可 以 区 分 出 多 个 类 别 。 其 中 有 普通 输入 、 隐 蕊 输入 、 重 置 输入 ， 以 及 用 于 定义 提交 按钮 的 输入 等 。 普 通 输入 用 于 
采集 被 发 送 到 服务 器 的 数据 ， 它 有 多 种 形式 ， 如 文本 域 、 颜 色 选 择 器 、 多 选 框 、 日 期 选择 器 和 滑动 条 等 。 隐 藏 输入 定义 的 也 是 被 发 送 到 服务 器 
的 数据 ， 但 用 户 对 它 没有 控制 能 力 。 重 置 输入 则 是 用 来 重 置 所 有 输入 项 及 当前 被 选 的 选项 的 。 提 交 按 钮 形式 的 输入 负责 发 送 用 户 提 供 的 数据 。 
输入 的 类 别 是 由 type 属 性 的 值 定义 的 。 对 于 隐藏 输入 来 说 ，type 属 性 是 hidden， 重 畦 输入 的 是 reset， 提 交 按 钮 的 则 是 submit。 普 通 输入 的 
type 取 决 于 要 采集 信息 的 类 型 ， 如 text、color、checkbox、date 和 range。 


输入 元 素 需 要 两 个 属性 ， 首 先 ， 用 name 属 性 明确 地 把 特定 输入 元 素 和 特定 信息 关联 起 来 ;还 需要 type 属 性 告诉 浏览 器 及 集 信息 的 万 式 。 另 
外 还 有 一 个 可 选 属性 value， 它 可 以 提供 一 个 默认 值 ， 在 用 户 没 有 输入 任何 信息 的 情况 下 ， 默 认 值 束 会 被 友 送 给 服务 器 。 


还 有 另外 三 个 标签 也 可 以 用 于 从 表单 中 采集 信息 : <textarea>， 以 及 <select> 和 和 <option> 的 组 合 。<textarea> 元 素 用 于 采集 多 行 的 文 
本 。 要 从 一 个 清单 中 选择 一 个 或 多 个 项 目 ， 可 以 在 HTML 网 页 中 使 用 <select> 元 泰 。<select> 元 素 负 责 设置 属性 值 ， 而 其 中 谱 套 的 <option> 
元 素 则 定义 了 用 户 可 以 选择 的 条 目 清 单 。 类 似 于 <input> 元 素 ， 从 <textarea> 和 < select> 元 素 上 发送 数据 也 需要 一 个 name 属 性 。 要 了 解 各 种 类 
型 的 输入 的 概述 ， 请 查看 InputTypes.html。 


如 需 查看 实际 使 用 的 表单 ， 你 可 以 打开 网 页 http://www.r-datacollection.com/materials/html/FormExample.html。 该 页 面 伪装 为 一 个 
网 站 入 口 ， 要 求 用 户 输入 密码 。 考 虑 到 我 们 已 经 把 HTML 这 一 章 学 得 差不多 一 半 了 ,， 我 们 相信 你 最 多 试 三 次 就 能 猜 到 密码 是 什么 。 去 试 试 吧 ! 
在 这 个 例子 里 action 属 性 被 设 为 Passed.html， 这 意味 着 在 第 一 页 采集 到 的 密码 会 被 提交 到 这 个 新 页 面 。 多 试 一 次 ， 输 入 另 一 个 密码 。 我 们 再 次 
转 到 了 新 的 网 页 ， 页 面 上 包含 了 我 们 在 文本 域 里 输入 的 信息 。HTML 表 单 把 静态 的 HTML 转 变 成 了 灵活 而 强 有 力 的 工具 。| 外 这 里 的 要 点 是 ， 被 发 
送 的 信息 以 及 返回 的 响应 是 随 着 我 们 输入 的 内 容 而 变化 的 。 

我 们 再 看 一 下 上 面 的 表单 例子 。 我 们 注意 到 第 一 个 <input> 元 素 的 name 属 性 是 pw。 我 们 已 经 知道 <input> 的 name 属 性 会 作为 传输 信息 
的 一 个 标记 。 如 果 你 查看 响应 的 URL， 你 会 注意 到 密码 是 附加 在 URL 后 面 的， 看 起 来 类 似 于 .…./Passed.html? pw=xxxxxxx。 从 这 里 我 们 可 以 判 
断 该 表单 使 用 了 GET 方 法 而 不 是 POST 方法 ， 否 则 密码 就 不 会 出 现在 URL 里 。 包 含 了 密码 的 这 个 URL 片 段 就 是 查询 字符 串 。 查 询 字符 串通 常 出 现 
在 URL 的 尾部 并 由 ? 开头 。 在 查询 字符 串 内 的 信息 会 以 参数 = 值 的 形式 编写 ， 就 和 HTML 标 签 属性 一 样 。 而 且 ， 当 有 超过 一 个 配对 参数 值 时 ， 它 
们 之 间 要 用 & 分 开 。 

既然 你 了 解 了 HTML 表 单 和 查询 字符 串 ， 现 在 花 点 时 间 用 浏览 器 查看 一 些 实际 使 用 的 表单 。 找 到 一 些 使 用 了 表单 的 页 面 ， 仔 细 查 看 它们 是 
否 使 用 了 查询 字符 串 ， 以 及 具体 是 怎么 使 用 的 。 你 可 能 还 会 想 在 浏览 器 里 返回 到 Passed.html 并 在 地 址 栏 里 直接 改动 pw 的 值 ， 看 看 会 有 什么 情 
况 发 生 。 


2.3.10 ”外 部 脚本 标签 <script> 
HTML 本 身 并 不 是 一 种 编程 语言 。HTML 是 一 种 描述 内 容 并 定义 其 表征 的 标记 语言 。 一 旦 HTML 文 件 在 浏览 器 中 加 载 ， 它 会 保持 稳定 ， 不 会 
随 着 事件 或 用 户 交 互 而 改变 。 不 过 ， 我 们 都 知道 一 些 高 度 动态 化 网 站 的 例子 。 它 们 中 的 大 部 分 很 可 能 都 大 量 使 用 了 <script> 元 素 。D| 


<script> 元 素 是 一 种 脚本 的 容器 ， 它 让 HTML 能 够 纳入 来 自 其 他 编程 语言 的 功能 。 这 里 说 到 的 其 他 编程 语言 通常 是 JavaScript。 在 从 服务 器 
加 载 到 页 面 之 后 ，Javascript 让 浏览 器 能 够 改变 内 容 和 文档 的 结构 ， 让 用 户 交 互 和 事件 处 理 成 为 可 能 。 


在 FormExample.html 和 Passed.html 里 我 们 已 经 使 用 了 < script> 元 素 。 在 Passed.html 里 有 两 个 <script> 元 素 。 第 一 个 放 在 header 内 部 ， 
定义 了 一 个 从 URL 里 提取 特定 参数 值 的 负数 。 第 二 个 直接 放 人 在 body 内 部 ， 执 行 定义 好 的 国 数 ， 从 pw 参数 里 查找 密码 值 。 把 密码 值 保 存 到 一 个 变 
量 之 后 ， 它 惑 把 这 个 值 写 到 HTML 网 页 里 。 


再 一 次 ， 目 己基 试 一 下 : 打开 Passed.html 并 修改 URLiL 它 看 起 来 类 似 于 : .../Passed.html? pw=Xxxxx。 把 该 页 面 保存 到 你 的 硬盘 里 (右键 
Fach, 保存 为 …) ， 然 后 在 浏览 器 里 重新 打开 你 保存 的 页 面 。 现 在 ， 查 看 一 下 保存 前 和 保存 后 的 页 面 源 代码 。 原 始 页 面 里 面 是 原始 的 源 代码 ， 
而 第 二 个 包含 了 加 载 页 面 之 后 在 浏览 器 中 修改 的 内 容 。 


让 我 们 回顾 一 下 HTML 以 及 我 们 如 何 能 识别 其 中 所 用 的 JavaScript。JavaScript 大 体 上 以 三 种 形式 出 现 : 在 一 个 <script> 元 素 中 显 式 定义 ， 
在 一 个 <script> 元 素 中 隐 式 引用 一 个 外 部 JavaScript 文 件 ， 以 及 在 一 个 HTML 元 素 中 隐 式 作为 一 个 事件 。 下 面 你 可 以 找到 所 有 这 三 种 类 型 的 
JavaScript 使 用 方式 的 例子 。 


- 显 式 JavaSctipt (输出 当前 时 间 和 日 期 ) : 


l <script> document .write( Date() ); </script> 


这 段 代码 向 页 面 加 入 当前 日 期 和 时 间 。 


引用 一 个 外 部 JavaSctipt 文 件 并 从 另 一 个 <sctipt> 元 素 中 调用 其 中 的 函数 (输出 查看 页 面 所 用 的 浏览 器 ) : 


| <script src="htmlresources/browserdetect.js"></script> 
2 <script> document .write (BrowserDetect.browser); </script> 





这 段 代 码 加 载 一 个 外 部 Javascript 文 件 (browserdetect.js) 并 使 用 其 中 包含 的 国 数 (BrowserDetect) 向 页 面 加 入 有 关 浏 览 器 的 信息 。 


利用 事件 触发 JavaScript ( 当 和 鼠标 悬 停 在 某 个 元 素 上 时 改变 样式 的 class) : 


l <p onmouseover="this.className='over'" 
2 onmouseout="this.className='out'!"> 
3 Hover Me!</p> 





ESR TSS, —SBSetinstineS Sic Evite, —SNE Si tin nR KARA, Blonmouseover#l 
onmouseout, HERREN AC SEAT AavaScripteyay, meyer scat UclassNoverByout, AG SIMA SAAR 


现在 ， 在 你 的 浏 响 器 中 打开 http://www.r-datacollection.com/materialshtml/Javascript.html1， 看 看 这 个 例子 。 页 面 会 显示 你 打开 它 的 
时 间 ， 显 示 当 前 时 间 ， 指 出 你 使 用 的 浏览 器 (版 本 号 以 及 它 运行 在 的 电脑 平台 ) ， 当 你 用 鼠标 悬 停 在 Hover Me! 文字 上 时 把 它 的 背景 色 从 白色 
改 成 黑色 ， 还 能 在 你 填写 文本 域 并 回 车 时 把 输入 的 文字 添加 到 页 面 上 。 


看 看 源 代码 ， 然 后 区 分 一 下 页 面 的 哪些 部 分 是 纯 HTML， 哪 些 是 JavaScript。 
2.3.11 表格 标签 <table>、<tr>、<td> 和 <th> 


下 一 组 元 素 让 HTML 能 够 显示 表格 。 查 看 一 下 表 2-2， 并 把 它 和 如 下 所 示 的 HTML 对 应 表示 进行 比较 。 我 们 用 <table> 标 签 来 产生 一 个 表 
格 。 我 们 用 <tr> 产 生 一 个 新 行 。 在 <tr> 内部， 我 们 可 以 用 <td> 来 定义 一 个 单元 ,或 用 <th> 定 义 表 头 的 一 个 单元 。 


表 2-2 人 均 名 义 国民 生产 总 值 (GDP) 


Nominal GDP 
(per capita, USD) 


Name 


l 170.373 Lichtenstein 
2 167.021 Monaco 
3 115,377 Luxembourg 


Norway 





Ln 


Qatar 





表 2-2 的 HTML 代 码 如 下 。 完 整 HTML 网 页 见 本 书 相关 材料 中 的 HTMLTable.html。 


<table> 
<tr> <th>Rank</th> <th>Nominal GDP</th> <th>Name</th> </tr> 
<tr> <th></th> <th>(per capita, USD)</th> <th></th> ef ts 
<tr> <tds1l</td> <td>170,373</td> <td>Lichtenstein</td> </tr> 


<tr> <td>2</td> <td>167,021</td> <td>Monaco</td> </tr> 

<tr> <td>3</td> <td>115,377</td> <td>Luxembourg</td> ERS 

<tr> <td>4</td> <td>98,565</td> <td>Norway</td> ot 

<tr> <td>5</td> <td>92,682</td> <td>Qatar</td> </tr> 
</table> 


[1] MIME 模 式 是 一 种 用 于 文件 格式 的 标准 化 两 段 标识 符 。 针 对 该 主题 的 更 充分 讨论 见 第 5 章 。 
[2] 公平 地 说 ，Passed.html 并 不 是 纯粹 的 HTML， 而 是 包含 了 一 些 JavaScript 代 码 。 在 第 6 章 我 们 会 接触 到 JavaSctipt。 


[3] 如 需 详 细 了 解 相 关 主 题 ， 请 查阅 第 6 章 。 


2.4 解析 


在 学 习 HTML 网 页 的 关键 特性 之 后 ， 现 在 我 们 就 要 在 一 个 R 的 会 话 中 加 载 并 展现 HTML/XML 文 件 的 内 容 。! | 如果 我 们 需要 从 R 内 部 以 规范 和 
可 靠 的 方式 从 网 页 上 提取 信息 ， 这 一 步 就 是 很 关键 的 。 中 


在 进行 网 络 抓 取 的 时 候 ， 我 们 往往 通过 两 个 步骤 接触 HTML: 首先 ， 我 们 会 但 看 网 络 上 的 内 容 并 检查 它 对 于 后 续 分 析 是 否 有 用 。 其 次 ,我 
们 会 把 HTML 文 件 导 入 R 并 从 中 提取 信息 。 对 HTML 的 解析 在 这 两 个 步 又 都 会 用 到 : 一 是 通过 浏览 器 准确 地 显示 HTML 内 容 ， 二 是 通过 R 的 解析 器 
在 我 们 的 编程 环境 里 构造 HTML 网 页 的 可 用 表征 。 在 本 章 的 剩余 部 分 ， 我 们 会 先 说 明 解 析 器 的 使 用 方法 ， 然 后 讨论 在 这 个 过 程 中 会 出 现 的 问题 
及 其 解决 办 法 。 


2.4.1 解析 简介 


在 演示 解析 器 的 应 用 之 前 ， 让 我 们 思考 一 下 ， 为 什么 我 们 需要 解析 像 HTML 这 样 的 标记 文档 的 内 容 ， 而 不 是 仅仅 把 它们 读 取 到 一 个 R 会 话 里 
束 可 以 了 。 读 取 和 解析 的 区 别 并 不 仪 仪 是 语义 上 的 。 相 反 ， 读 取 函 数 和 解析 六 数 的 差异 在 于 ， 前 者 并 不 关心 对 HTML 基 础 性 的 正式 语法 的 理 
解 ， 而 只 是 识别 HTML 文 件 中 包含 的 符号 序列 。 要 想 看 清 这 个 差别 ， 让 我 们 运用 R 的 readLines () 基础 国 数 ， 它 会 加 载 HTML 文 件 中 的 内 容 。 作 
为 本 部 分 一 个 程序 化 的 实际 运行 例子 ， 我 们 来 看 看 fortunes.html (请 查看 本 章 材料 ) 个 包含 了 几 条 关于 R 的 名 言 警 句 的 简单 HTML 文 
件 。 我 们 对 该 文档 运用 readLines () 方法 ， 把 输出 保存 到 一 个 叫 fortunes 的 对 象 中 ， 并 将 其 内 容 输出 到 屏幕 上 : 





R> url <- "http://www.r-datacollection.com/materials/html/fortunes.html" 
R> fortunes <- readLines(con = url) 
R> fortunes 


readLines () 会 把 输入 文件 的 每 一 行 分 别 映射 到 一 个 字符 向 量 的 一 个 值 里 。 虽 然 用 起 来 很 简单 ， 但 readLines () 给 该 文档 创建 的 是 一 个 
局 平 化 的 表示 法 ， 这 种 形式 对 于 从 中 提取 信息 的 用 处 不 大 。 主 要 问题 在 于 readLines () 对 不 同 的 标签 元 素 (名 字 、 属 性 、 值 等 ) 是 不 了 解 的 ， 
它 产生 的 结果 从 任何 意义 上 说 都 不 能 反映 家 套 的 标签 所 对 应 的 文档 内 部 层次 关系 。 


为 了 获得 有 用 的 HTML 文 件 表征 ， 我 们 需要 运用 一 个 能 够 理解 标记 结构 特殊 含义 的 程序 ， 并 在 某 个 R 的 专用 数据 结构 内 部 重建 HTML 文 件 隐 
含 的 层次 结构 。 这 种 表示 法 也 被 称 为 文档 对 象 模 型 (DOM ) 。 这 是 一 种 可 查询 的 数据 对 象 ， 我 们 可 以 从 任何 HTML 文 件 构建 它 ， 而 且 它 对 于 网 
页 部 分 的 后 续 处 理 也 是 有 用 的 。 这 种 从 HTML 代 码 到 DOM 的 转化 就 是 DOM 解 析 器 的 任务 。 解 析 器 属于 一 般 类 型 的 域 相关 程序 ， 它 会 遍历 HTML 
符号 序列 并 在 编程 环境 的 一 个 数据 对 象 里 重建 文档 的 语义 结构 。 在 本 书 剩余 部 分 ， 我 们 会 使 用 来 自 XML 组 件 的 功能 来 解析 网 页 (Temple Lang 
2013c) 。XML 组 件 提供 了 一 个 和 libxml2 库 的 接口 ， 这 个 库 是 一 个 用 C 语 言 编写 的 功能 强大 的 解析 库 ， 能 够 应 付 很 多 与 解析 相关 的 问题 。 作 为 
起 始 步 又， 让 我 们 用 XML 组 件 的 htmlParse () 方法 解析 fortunes.html 并 把 它 保存 在 一 个 叫 parsed fortunes 的 新 对 象 里 : 


R> library (XML) 
R> parsed fortunes <- htmlParse(file = url) 
R> print (parsed fortunes) 


<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN"> 
<html> 


<head><title>Collected R wisdoms</title></head> 
<body> 


<div id="R Inventor" lang="english" date="June/2003"> 


<hl>Robert Gentleman</h1> 
<p><i>'What we have is nice, but we need something very different'</i></p> 
<p><b>Source: </b>Statistical Computing 2003, Reisensburg</p> 


</div> 


<div lang="english" date="October/2011"> 

<hi>Rolf Turner</h1> 

<p><i>'R is wonderful, but it cannot work magic'</i> <br><emph>answering 

a request for automatic generation of 'data from a known mean and 95% CI' 
</emph></p> 

<p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help"> 
R-help</a></p> 


</div> 


<address> 
<a href="http://www.r-datacollectionbook.com"><i>The book homepage</i></a> 
<a></a> 


</address> 


</body> 
</html> 


把 结果 对 和 象 输出 到 屏幕 之 后 ， 我 们 融 获 得 了 在 R 会 语 中 创建 文件 拷贝 的 视 沉 反馈。 对 于 传统 的 解析 任务 来 说 ，htmlParse () mE EEH 
解析 的 文档 对 象 所 需要 的 全 部 操作 了 。 在 最 简单 的 情况 下 ， 需 要 通过 file 参 数 把 文件 路 径 传递 给 这 个 函数 。 这 个 参数 可 能 是 一 个 已 经 存放 在 硬盘 
上 的 HTML 文 件 〈 或 者 HTML 文 件 的 压缩 仓 档 ) ， 或 者 是 指向 某 个 网 页 的 一 个 URL。 


htmlParse () 和 其 他 DOM 风 格 的 解析 器 能 够 有 效 地 执行 下 列 步 又。 


1) htmlParse () 首先 会 解析 整个 目标 网 页 ， 并 在 一 个 C 语 言 的 树 形 数据 结构 里 产生 DOM。 在 这 个 数据 结构 里 ， 每 个 在 HTML 中 出 现 的 元 
素 会 被 表示 为 它 目 己 的 实体 或 者 表示 为 单个 节点 。 所 有 节点 合 在 一 起 被 称 为 节点 集 。 解 析 过 程 也 包括 了 对 不 展 形态 的 自动 合法 性 检查 步骤 。 从 
CHIR (参见 fortunes 对 象 ) ， 我 们 可 以 知道 fortunes.html 含 有 两 处 结构 错误 。 不 仪 某 些 属性 值 缺 少 了 引号 ， 而 且 第 二 个 段落 标签 
(<p>) 缺少 闭合 标签 。 不 过 ， 正 如 我 们 在 解析 输出 里 看 到 的 ， 这 两 个 错误 都 被 纠正 了 。 这 归功 于 libxml2 有 能 力 处 理 形态 不 良 的 HTML 网 页 ， 
为 它 会 识别 并 纠正 错误 ， 从 而 产生 合法 的 DOM。 


2) 下 一 步 ，C 语 言 层次 的 节点 结构 会 被 转化 为 R 语 言 的 一 个 对 销 。 这 个 步骤 是 有 必要 的 ， 因 为 后 续 对 DOM 的 处 理 (如 修改 和 提取 其 中 的 信 
A) 在 R 这 样 的 更 高 级 语言 中 会 方便 得 多 。 在 内 部 ，R 会 使 用 列表 来 表达 节点 的 层次 顺序 。 更 具体 地 说 ，C 语 言 和 R 语 言 之 间 的 转化 是 由 所 谓 的 处 
理 器 (handler) 水 数 来 管理 的 。 这 些 处 理 器 消 数 会 规范 C 语 言 层次 节点 到 R 列 表 元 素 的 翻译 过 程 ， 并 人 允许 用 户 拦 截 该 过 程 ， 以 确定 某 个 节点 是 
否 要 表达 为 R 对 象 ， 以 及 要 表达 的 方式 。 


对 于 大 部 分 解析 任务 ， 你 会 发 现 htmlParse () 的 默认 选项 对 于 产生 DOM 已 经 足够 好 用 了 。 不 过 ， 如 果 目 标 文 档 体 量 巨大 、 包 含 了 无 用 信 
息 或 需要 以 预定 的 方式 进行 更 改 ， 具 备 对 解析 过 程 的 控制 能 力 还 是 有 益 的 。 针 对 这 些 情况 ，2.4.2 节 会 分 析 一 些 影响 DOM 创 建 过 程 的 方法 ， 例 
如 ， 通 过 制定 一 些 规 则 来 组 织 特定 元 素 映 射 到 R 对 象 的 过 程 。 
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在 解析 阶段 ， 丢 弃 网 页 中 不 需要 的 部 分 有 助 于 消除 内 存 不 足 的 问题 并 加 快 提取 速度 。 在 构建 树 的 阶段 ， 处 理 器 为 处 理 节 点 (如 删除 、 添 
加 、 修 改 ) 提供 了 万 便 实用 的 万 法 。 正 如 我 们 已 经 提 到 的 ， 处 理 器 尔 数 会 规 沁 C 语 言 层次 节操 结构 转化 到 R 对 香 的 过 程 。 在 处 理 器 默认 没有 变化 
的 情况 下 ， 所 有 节点 都 会 被 映射 到 R 列 表 结 构 ， 但 是 我 们 可 以 随心 所 欲 地 控制 这 个 过 程 。 


我 们 把 处 理 器 指定 为 市 有 命名 的 肖 数 的 一 个 列表 ， 这 里 的 命名 对 应 某 个 节点 名 ， 而 水 数 明确 了 对 该 节点 的 操作 。 当 处 理 到 某 个 符合 特定 名 
字 的 节点 时 ， 对 应 的 冰 数 就 会 执行 。 举 例 来 说 ， 考 虑 要 在 HTML 样 本 文件 中 删除 <body> 节 点 的 情况 。 在 解析 阶段 ， 我 们 可 以 轻松 地 去 掉 这 个 节 
所 及 其 所 有 子 节 点 ， 也 束 是 那些 启 套 在 树 的 更 深层 次 的 节操 ， 如 下 所 示 : 


R> h1 <- list("body" = function (x) {NULL}) 


R> parsed fortunes <- htmlTreeParse(url, handlers = hl, asTree = TRUE) 
R> parsed fortunes$Schildren 
shtml 
<html> 

<head> 

<title>Collected R wisdoms</title> 
</head> 
</html> 


首先 ， 我 们 创建 了 一 个 对 象 h1， 里 面包 含 了 由 一 个 函数 组 成 的 列表 ， 该 函数 以 我 们 希望 删除 的 节点 来 命名 。 然 后 我 们 通过 handlers 参 数 把 
这 个 对 象 传递 给 htmlTreeParse () 尔 数 。 在 屏幕 上 输出 parsed_fortunes 后 ， 可 以 看 到 <body> 节 操 已 经 不 骨 是 DOM 树 的 一 部 分 了 。 从 内 部 
原理 来 说 ， 处 理 器 会 把 所 有 <body> 节 点 的 实例 替换 为 NULL 对 象 ， 这 就 相当 于 删除 了 这 些 节点 。 当 使 用 处 理 器 消 数 的 时 候 ， 需 要 设置 asTree 参 
数 为 TRUE 以 指定 返回 的 是 DOM 而 不 是 处 理 器 函数 本 身 。 


通过 XML 组 件 ， 我 们 可 以 传递 处 理 器 函数 对 特定 的 XML 元 素 进 行 操作 ， 例 如 ， 操 作 指令 、XML 注 释 、CDATA 或 一 般 节点 集 。 口 在 表 2-3 里 
有 对 这 些 通用 处 理 器 的 完整 概括 。 为 了 讲述 它们 的 用 法 ， 我 们 来 讨论 有 关 删 除 文档 中 的 注释 和 所 有 带 有 div 或 title 名 字 的 节点 的 问题 。 我 们 再 次 
从 创建 一 个 处 理 器 冰 数 列表 的 步骤 开始 。 在 这 个 列表 内 部 ， 第 一 个 处 理 器 元 素 指 定 了 一 个 遂 数 ， 作 用 于 文档 中 的 所 有 XML 节 点 
(startElement) 。 这 样 命名 的 处 理 器 定义 了 针对 文档 内 所 有 节 扣 执 行 的 辫 数 。 该 函数 指定 了 对 节 扣 名 的 请 求 (xmlIName) 并 实现 了 一 个 控制 
结构 ， 对 名 字 为 div 或 title 的 节点 返回 NULL 对 象 (意味 着 丢弃 该 节点 ) ， 对 于 其 他 节点 则 整个 包 合 到 DOM 树 中 。 第 二 个 处 理 器 元 素 
(comment) 则 指定 了 一 个 丢人 芥 任 何 HTML 注 释 的 消 数 。 

R> h2 <- list ( 
startElement = function (node, = 


name <- xmlName (node) 
if (name %in% c("div", "title") ) {NULL}else{node} 


}， 


comment = function (node) {NULL} 


表 2-3 DOM 风 格 解析 的 通用 处 理 器 


startElement () XML JUR 操作 指示 


comment ( ) 





cdata() 


资料 来 源 : Nolan#eTemple Lang (2014: 153) 


让 我 们 把 处 理 器 函数 传递 给 htmlTreeParse () : 


R> parsed fortunes <- htmlTreeParse(file = url, handlers = h2, asTree = TRUE) 


如 果 把 parsed fortunes 输 出 到 屏幕 ， 可 以 发 现 那 些 在 处 理 器 中 指定 的 节点 都 被 丢弃 了 : 


R> parsed fortunesschildren 
shtml 
<html> 
<head/> 
<body> 
<address> 
<a href="http://www.r-datacollectionbook.com"s> 
<i>The book homepage</i> 
</a> 
<a/> 
</address> 
</body> 
</html> 


243 ”在 创建 过 程 中 提取 信息 


我 们 在 表面 进 解 了 HTML 文 件 的 解析 ， 它 是 从 网 页 提取 信息 所 必要 的 中 辐 步 又。 在 这 个 过 程 中 ， 我 们 通 弟 需 要 解析 器 完整 遍历 C 语 言 层 次 的 
广 操 集 ， 然 后 在 R 数 据 结构 中 创建 文档 树 ， 并 从 中 提取 出 特定 的 信息 。 从 概念 上 说 ， 还 有 另外 一 种 蔡 代 策略 ， 那 束 是 在 解析 过 程 中 直接 进行 提 
取 。 在 某 些 情 况 下 ， 这 种 策略 具有 相当 大 的 优势 ， 因 为 它 可 以 避免 多 次 加 载 文档 ， 虽 然 它 和 前 面 介 绍 的 DOM 风 格 解析 方法 相 比 会 稍稍 更 有 难 
度 。 同 样 ， 处 理 器 函数 在 这 个 过 程 中 也 会 友 挥 天 键 作 用 。 但 是 ， 不 同 于 之 前 用 处 理 器 摘 述 C 语 言 层 次 节 点 应 该 如 何 转化 为 R 语 言 DOM 树 元 素 ， 
现在 我 们 要 让 处 理 器 把 特定 的 节点 直接 赋值 给 我 们 自己 选择 的 R 对 象 。 最 终 ， 这 个 方法 让 我 们 能 节省 一 次 额外 的 遍历 步骤 ， 这 样 束 形成 了 更 高 效 
的 提取 目标 信息 的 方法 。 在 更 深入 地 讨论 本 节 之 前 ， 我 们 要 指出 ， 本 书 的 内 容 是 比较 高 阶 水 平 的 。 如 果 你 还 不 太 熟 悉 R 的 作用 域 问题 ， 也 可 以 直 
接 跳 到 本 章 的 总 结 部 分 。 不 看 这 部 分 你 也 能 继续 学 好 本 教材 。 


举 个 例子 ， 考 虑 从 fortunes.html 中 提取 封 半 在 <i> 标 签 里 的 斜体 字 信 息 的 问题 。 在 这 项 任务 里 ， 我 们 需要 解决 一 个 棘手 的 函数 作用 域 问 
题 。 我 们 最 终 要 创建 一 个 数据 对 象 ， 存 放 当 前 工作 区 (或 者 说 全 局 环境 ) 里 的 信息 。 但 是 R 里 的 销 数 一 一 包括 我 们 的 处 理 器 函数 也 一 样 一 一 是 
针对 局 部 变量 进行 操作 的 ， 对 于 全 局 环境 则 没有 写 权 限 ， 而 这 对 本 节 的 问题 却 是 必要 条 件 。 





解决 办 法 是 把 对 应 网 页 中 <i> 节 氮 的 处 理 器 函数 定义 为 所 谓 的 二 包 ， 即 一 种 能 够 引用 非 本 地 局 部 对 象 的 函数 。 一 个 团 包 函 数 不 仪 包含 了 函数 
的 参数 和 遂 数 体 ， 还 包含 了 一 个 环境 。 这 里 说 的 环境 对 于 定义 容器 变量 是 必要 的 ， 即 我 们 会 把 处 理 器 的 输出 赋值 给 容器 变量 ， 此 外 ， 还 要 给 该 
量 的 内 容 定 义 一 个 返回 阅 数 。 


an 
Fe ITEM — MRE RaNgetitalics () 。i_container 是 局 部 容器 变量 ， 它 会 存放 所 有 设置 为 科 体 的 信息 。 下 一 步 ， 我 们 为 <i> 节 后 定义 处 
理 器 消 数 。 在 这 个 遂 数 第 一 行 的 右 侧 ,我 们 用 当前 <i> 书 点 的 值 产生 一 个 新 的 实例 放 入 容器 变量 ， 并 把 容器 变量 里 的 内 容 串 接 起 来 。 然 后 ， 通 过 


使 用 能 够 给 非 局 部 变量 赋值 的 超级 赋值 符 < < -， 用 结果 产生 的 向 量 履 盖 已 有 的 容器 对 象 。 最 后 ， 我 们 要 创建 一 个 叫 returnl () 的 函数 ， 用 来 返 
回 前 面 产生 的 容器 对 象 


R> getItalics = function() { 


i container = character () 
list(i = function(node, ...) { 

i container <<- c(i container, xmlValue (node) ) 
}, returnI = function() i container) 


下 一 步 ， 我 们 执行 getltalics () 并 将 它 的 返回 值 赋值 给 新 的 对 象 h3。 实 际 上 ， 现 在 h3 包 合 了 我 们 的 处 理 器 消 数 ， 但 除 此 之 外 ,该 处理 器 沙 
数 能 够 访问 jcontainer 和 returnl () ， 因 为 这 两 个 对 象 是 和 处 理 器 函数 在 同一 个 环境 创建 的 : 


R> h3 <- getItalics() 
现在 我 们 可 以 把 这 个 函数 传递 给 htmlTreeParse () 的 处 理 器 参数 : 
R> invisible (htmlTreeParse (url, handlers = h3)) 


为 清楚 起 见 ， 我 们 调用 了 invisible () 函数 来 阻止 DOM 输 出 到 屏幕 上 。 要 查看 获取 的 信息 ， 我 们 可 以 调用 h3 () 的 return| () 函数 把 文档 
中 出 现 的 所 有 <i> 节 点 输出 到 屏幕 : 


R> h3Sreturnl ( ) 

[1] "'What we have is nice, but we need something very different'" 
[2] "'R is wonderful, but it cannot work magic'" 

[3] "The book homepage" 


[1] 虽然 HTML 和 XML 在 很 多 方面 有 差异 ， 它 们 的 语法 是 相似 的 ， 因 此 ， 对 于 HTML 解析 的 讨论 对 于 XML 解析 也 有 很 高 的 相关 度 。XML 是 第 3 章 的 
主题 

[2] 有 关 分 析 被 解析 网 页 代码 以 便 进行 数据 提取 的 方法 ， 请 查看 第 4 章 。 

[3] 有 关 XMIL 注 释 和 CDATA 的 讲解 ， 请 查看 第 3 章 。 


小 结 


本 章 重 点 讨论 对 HTML 的 基本 理解 。 在 网 上 冲 瀛 时 ， 我 们 看 到 的 是 浏览 器 对 存放 内 容 的 标记 源 代码 的 一 种 解释 表现 。 标 签 构成 了 在 HTML 里 
所 使 用 标记 的 核心 ， 并 可 以 用 于 定义 结构 、 表 现 及 内 容 。 此 外 ， 页 面 元 素 不 但 包含 了 信息 ， 还 可 以 用 来 从 客户 端 向 服务 器 传输 信息 ， 或 包含 来 
自 其 他 计算 机 语言 (最 常见 的 是 JavaScript) 的 功能 。 学 习 到 这 个 程度 ， 我 们 应 该 能 够 在 源 代码 中 定位 相应 的 信息 ， 并 把 源 代码 和 浏览 器 的 解释 
联系 起 来 ， 反 之 亦 然 。 结 合 有 关 HTML 元 素 结 构 的 知识 ， 我 们 能 够 了 解 如 何 利用 HTML 文 件 的 结构 和 布局 以 便 采 集 所 需要 的 信息 。 


在 从 网 页 中 处 理 信息 的 过 程 中 ， 解 析 是 一 个 重要 的 步骤 。HTML 的 本 地 结构 并 不 是 自然 地 映射 到 R 对 象 的 。 我 们 可 以 把 HTML 文 件 作为 原始 
文本 导入 ， 但 这 样 会 把 这 些 文档 里 最 有 用 的 特性 给 剥离 了 。 我 们 在 本 章 学 习 了 如 何 解 析 HTML 网 页 的 树 结构 ， 在 R 环 境 里 产生 一 个 它们 的 表示 
法 。 我 们 将 要 在 第 4 草 了 解 一 些 有 力 的 工具 ， 用 来 在 这 些 对 象 及 其 包含 的 信息 里 定位 并 提取 节点 。 但 首先 我 们 会 转 到 XML 的 学 习 ，XML 是 HTML 
更 通用 的 伙伴 ， 也 是 在 网 络 上 交换 数据 经 常 使 用 的 格式 。 


延伸 阅读 


由 于 HTML 是 一 个 W3C 标 准 ， 我 们 推荐 浏览 W3 网 页 以 及 配套 的 W3schools 网 页 (http://www.w3schools.com) ， 如 果 你 希望 更 深入 地 学 
习 HTML 和 Javascript 的 话 。 同 时 ，HTML 也 是 一 个 WHATWG 的 标准 ， 你 可 能 会 愿意 查看 他 们 的 网 页 ， 了 解 更 多 有 关 HTML 及 其 相关 技术 的 信 
息 (http://www.whatwog.org/) 。 例 如 ， 它 的 历史 解释 了 W3C 和 WHATWG 会 并 行 制定 HTML5 标 准 的 原因 。 更 多 有 用 的 网 络 资源 如 下 所 示 : 


HTML 标签 的 完整 清单 ， 带 有 描述 和 例子 : http://www.w3schools.com/tags 

一 个 特殊 字符 、 符 号 ， 及 其 完整 表示 法 的 长 清单 : http://www.w3schools.com/chatrsets/ref_html_8859.asp 
.一 个 字符 集 及 其 完整 表示 法 的 超级 长 清单 : http://unicode-table.com 

一 个 HIML 校 验 器 : http: //validator.w3.org 


对 于 那些 喜欢 简短 内 容 而 且 能 拿 在 手 里 的 实体 书 的 同学 ， 有 本 不 到 200 页 的 Niederst Robbins (2013) 写 的 HTML5Pocket 
Reference (HTML5 口 袋 参考 书 ) 。 你 还 可 以 在 Castro and Hyslop (2014) 有 关 HTML 和 和 CSS 以 及 Flanagan (2011) 有 关 JavaScript 的 书 里 
看 到 更 全 面 深 入 的 讲解 。 


Ad) 
图 


1.HTML 是 一 个 网 络 标准 。 为 什么 这 很 重要 ? 


2. 为 如 下 元 素 编 写 HTML 标 签 : (a) 主 标题 ，(b) 开始 一 个 新 的 段落 ，(c) 插入 外 部 代码 ，(d) 构造 排序 列表 ，(e) 创建 一 个 超 链 
fz, (H 创建 一 个 电子 邮件 链接 。 


3.HTML 源 代码 检查 

(a) 在 浏览 器 里 打开 三 个 你 常用 的 网 页 。 

(b) 查看 所 有 三 个 网 页 的 源 代码 。 

(c) 用 浏览 器 的 检查 元 素 工 具 查 看 各 种 元 素 。 

(d) 把 每 个 网 页 保存 到 硬盘 。 

4. 创 建 一 个 基本 的 HTML 网 页 ， 第 一 部 分 

(a) 编写 一 个 最 小 的 HTML 文 件 。 

(b) 加 入 你 的 名 字 作 为 注释 。 

(c) 加 入 一 个 一 级 和 一 个 二 级 标题 。 

(d) 继续 增加 一 些 内 容 ， 例 如 ， 关 于 现在 天 气 的 一 个 句子 。 

(e) 加 入 一 个 段落 ， 里 面 有 更 多 内 容 ,例如 ， 有 天 明天 天 气 的 一 个 句子 。 

5. 创 建 一 个 基本 的 HTML 网 页 ， 第 二 部 分 

(a) 编写 一 个 最 小 的 HTML 网 页 。 

(b) 加 入 一 个 段落 ， 其 中 包含 10 个 特殊 字符 ， 其 中 只 能 有 5 个 是 在 表 2-1 里 提 到 过 的 。 

(c) 使 用 http://www.r-datacollection.com/materials/html/simple.css 作 为 你 的 缺 省 样式 文件 。 
(d) 到 http://validator.w3.org 检 查 你 的 网 页 的 合法 性 。 

6. 创 建 一 个 基本 的 HTML 网 页 ， 第 三 部 分 

(a) 编写 一 个 最 小 的 HTML 网 页 。 

(b) 加 入 一 个 两 列 三 行 的 表格 。 

(c) 第 一 列 必须 包含 first，second 和 third。 第 二 列 必须 包含 你 最 常 使 用 的 那 三 个 网 页 的 链接 。 
(d) 到 http://www.w3schools.com/tags 浏 览 标签 列表 。 试 着 在 你 的 HTML 网 页 中 用 到 一 些 你 还 不 大 熟悉 的 标签 。 


7.R 的 基础 函数 download.file () 是 一 个 用 来 在 R 里 从 网 络 收集 数据 的 标准 工具 。 调 研一 下 该 函数 的 语法 ， 尝 试用 它 把 你 最 喜欢 的 那 三 个 网 
站 首页 保存 到 硬盘 上 。 


8.RAYaeiiekexreadLines () 和 writeLines () 可 以 用 来 向 R 导 入 和 从 R 导 出 字 待 数据。 尝试 用 它们 导入 你 在 上 一 个 练习 收集 的 网 页 ， 并 把 
它们 保存 到 不 同 的 对 象 里 。 然 后 ， 把 这 三 个 对 象 合并 成 一 个 列表 对 象 。 最 后 ， 用 writeLines () 再 次 把 这 些 网 页 保存 到 外 部 文件 里 。 


9.i7\JavaScript 


(a) 在 浏览 器 打开 http://www.r-datacollection.com/materials/html/fortunes3.html, 

(b) 查看 网 页 的 源 代码 。 

(c) 用 download.file () 函数 下 载 链接 到 网 页 的 两 个 JavaScript 文 件 。 

10. 创 建 一 个 基本 的 HTML 了 网页， 第 四 部 分 

(a) 编写 一 个 最 小 的 HTML 网 页 。 

(b) 加 入 一 个 表单 ， 里 面包 括 两 个 输入 元 素 : name 和 age。 

(c) 把 表单 定义 成 通过 GET 方 法 向 http://www.r-datacollection.com/materials/http/GETexample.php 发 送 数 据 。 
(d) 确保 它 管 用 : 服务 器 传 回 的 响应 应 该 是 “Hello YourName! You are YourAge years old.” , 


(e) 滨 试 友 冯 很 大 的 年 龄 值 。 在 这 种 情况 下 咽 应 消息 有 变化 吗 ? 


第 3 草 XML 和 JSON 


XML (eXtensible Markup Language， 可 扩展 标记 语言 ) 是 在 网 络 上 交换 数据 最 流行 的 格式 之 一 。 不 仅 如 此 ， 它 在 我 们 的 日 常生 活 中 也 
是 无 所 不 在 的 。 正 如 Harold 和 Means (2004, xiii) 提 到 的 : 


对 于 横 跨 几乎 所 有 计算 机 应 用 的 全 新 设计 的 文档 格式 ，XML 已 经 成 为 其 语法 的 首选 。 它 用 在 Linux、Windows、Macintosh 和 很 乡 其 他 的 计算 
机 平台 上 。 人 华尔街 的 主机 通过 交换 XML 文档 来 进行 股票 的 交易 。 在 自己 家 里 的 PC 上 玩 游戏 的 孩子 用 XML 保存 他 们 的 文档 。 体 育 迷 以 XML 格式 在 
他 们 的 手机 上 接收 实时 比分 。XML 是 迄今 为 止 所 发 明 的 最 稳定 、 最 可 靠 和 最 灵活 的 文档 语法 。 


对 于 某 些 具备 了 HTML 基 本 知识 的 同学 来 说 ，XML 看 起 来 会 很 眼熟 ， 因 为 它 有 和 其 他 标记 语言 相同 的 特性 。 不 过 ，HTML 和 XML 有 它们 各 
目的 用 处 。HTML 用 于 构成 信息 的 展示 ， 而 XML 的 主要 用 途 是 保存 数据 。 因 此 ，XML 文 档 的 内 容 在 浏 哎 器 中 打开 时 并 不 会 变 得 多 好 看 一 一 XML 
只 是 包 时 在 用 户 自 定义 标签 里 的 数据 而 已 。 用 尸 自 定义 标签 使 XML 对 于 保存 数据 比 HTML 灵 活 得 多 。 本 章 的 主要 目的 不 是 让 你 变 成 XML 编 程 专 
家 ， 而 是 让 你 熟悉 XML 文档 的 关键 部 件 。 


我 们 一 开始 会 看 到 一 个 实际 的 XML 例子 (3.1 节 ) ， 接 着 是 XML 语 法 的 介绍 (3.279) 。 有 很 多 种 万 法 可 以 用 于 限制 XML 标记 里 的 无 限 灵 活 
性 。 本 书 3.3 节 和 3.4 节 会 介绍 一 些 扩展 XML 的 技术 ， 以 及 定义 新 标准 的 技术 ， 通 过 它们 可 以 简化 在 网 络 上 高 效率 地 交换 特定 数据 的 工作 。3.5 节 
介绍 如 何在 R 里 处 理 XML 数 据 。 如 果 你 的 网 络 抓 取 任务 并 非特 定 针 对 XML 数据 ， 那 你 只 需要 大 概 浏览 一 下 本 章 的 这 部 分 内 容 就 可 以 了 ， 因 为 你 
从 第 2 章 已 经 熟悉 了 XML 最 重要 的 一 些 概念 。 


另 一 个 常用 的 网 络 数 据 存 放 和 交换 的 标准 是 JavaScript 对 和 象 标记 (JSON) 。JSON 在 数据 交换 用 途 方面 是 XML 越 来 越 流 行 的 替代 品 ， 它 具 
备 一 些 更 好 的 特性 。 因 此 ， 本 章 的 第 二 部 分 会 转向 JSON。 我 们 会 用 一 个 小 例子 介绍 这 种 格式 (3.6 节 ) ， 讨 论 它 的 语法 (3.7 节 ) ， 并 学 习 如 何 
把 JSON 内 容 导 入 R 并 处 理 其 中 的 信息 (3.875) 。 


3.1 XML 文档 示例 


让 我 们 从 一 个 XML 文件 的 简短 例子 开始 。 图 3-1 中 的 XML 代码 提供 了 有 天 三 个 James Bond (007) 系列 电影 的 样本 ， 还 有 一 些 基 本 信息 。 
也 许 XML 代 码 最 有 特色 的 地 方 束 是 人 类 阅读 者 可 以 毫 无 办 难 地 解析 其 中 的 数据 。XML 里 的 值 和 名 字 都 被 包 里 在 有 合 义 的 标签 里 。 这 三 部 电影 中 
的 每 一 个 都 市 有 名 字 、 年 份 、 两 位 主演 、 预 算 和 票房 收入 。 缩 进 的 层次 对 于 阅读 也 提供 了 很 多 的 辅助 ， 但 并 不 是 XML 所 必需 的 部 件 。 它 的 作用 
只 是 突出 文档 的 层次 结构 。 这 个 文档 以 根 元 素 <bond_movies> 开 始 ， 也 以 它 结束 。 对 于 每 个 电影 记录 ， 其 中 的 元 素 是 重复 的 ， 而 内 容 则 各 不 相 
同 。 


I| <?xml version="1.0" encoding="ISO-8859-1"?> 

2| <bond movies> 

3 <movie id="1"> 

4 <title>Dr. No</title> 

5 <year>1962</year> 

6 <actors bond="Sean Connery" villain="Joseph Wiseman"/> 
7 <budget>1.1M</budget> 

8 <boxoffice>59.5M</boxoffice> 

9 


</movie> 
10 <movie id="2"> 
11 <title>Live and Let Die</title> 
12 <year>1973</year> 
13 <actors bond="Roger Moore" villain="Yaphet Kotto"/> 
14 <budget>7M</budget> 
15 <boxoffice>126.4M</boxoffice> 
16 </movie> 
17 <movie id="3"> 
18 <title>Skyfall</title> 
19 <year>2012</year> 
20 <actors bond="Daniel Craig" villain="Javier Bardem"/> 
21 <budget>175M</budget> 
22 <boxoffice>1108.6M</boxoffice> 
23 </movie> 


24| </bond movies> 


图 3-1 一 个 XML 代码 的 例子 : James Bond 系 列 电影 


某 些 元 素 是 特殊 的 。 第 一 行 的 元 素 (<? xmlhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15597/OEBPS/Text/...>) 没有 重复 出 现 ， 它 和 <actors> 都 在 
<http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15597/OEBPS/Text/...> 符 号 内 部 


包 售 了 一 些 额外 的 信息 。 


XMLi 语 言 的 工作 方式 非常 直观 。 即 使 你 还 没有 掌握 语法 的 所 有 规则 ， 扩 展 及 改善 这 个 数据 集 对 你 来 品 应 该 也 不 成 问题 。 实 际 上 ， 为 什么 不 
试 试 呢 ? 复制 文件 ， 打 开 维 基 百 科 ， 碍 找 电 影 的 其 他 细节 信息 ， 然 后 把 找到 的 信息 加 入 文件 中 ! 然后 你 可 以 检查 一 下 你 的 XML 代 码 写 得 是 否 
确 。 这 是 因为 信息 是 作为 纯 文本 存放 的 ， 标 签 则 完全 是 用 尸 目 定义 且 容 易 理解 的 ， 这 样 可 以 把 数据 整理 成 含义 明确 的 万 式 。 其 实 标 签 对 于 解析 
数据 也 不 一 定 是 必需 的 ， 但 它们 让 XML 成 为 了 一 种 计算 机 语言 ， 从 而 能 为 计算 机 的 通信 发 挥 作用 |。 


XML 是 纯 文本 格式 ， 这 一 事实 使 它 具备 终极 兼容 能 力 。 这 意味 着 不 管 我 们 使 用 的 是 什么 浏览 器 ， 什 么 操作 系统 ， 还 是 哪个 PC 硬件 平台 ,我 
们 都 能 处 理 它 。 要 解析 其 中 的 数据 和 结构 ， 亦 无 须 更 多 的 信息 或 解码 器 。 标 签 和 数据 一 起 传输 ， 就 完整 地 描述 了 文档 ， 这 通常 称 为 自 描述 。 此 
外 ， 因 为 标签 是 互相 嵌 套 的 ， 所 以 XML 文 档 可 以 用 于 表示 复杂 的 数据 结构 (Murrell 2009，p.116) 。 我 们 会 在 后 续 章 节 讨论 这 些 结构 。 需 要 指 
出 的 是 ， 虽 然 XML 如 此 灵活 ， 但 它 也 具备 一 套 清晰 的 规则 ， 用 于 定义 文档 的 基本 布局 。 我 们 可 以 使 用 简单 的 工具 来 检查 在 XML 文 档 中 是 否 遵守 
了 这 些 规则 。[] 另 外 还 有 一 些 工 具 用 来 进一步 限制 XML 文 档 的 结构 和 内 容 。 很 多 开发 者 使 用 XML 的 语法 来 创建 新 的 基于 XML 的 语言 ， 这 些 语言 
基本 上 会 限定 XML 使 用 一 组 固定 的 元 素 、 结 构 和 内 容 ， 在 3.4.3 节 和 3.4.4 节 会 深入 探讨 这 些 内 容 。 这 些 衍生 语言 仍然 是 合法 的 XML。XML 通 过 这 
些 扩展 应 用 获得 了 相当 大 的 流行 度 。 


在 XML 文 件 中 存放 信息 的 不 足 之 处 是 效率 不 高 。 纯 文本 XML 文 档 往往 包含 了 很 多 见 余 信息 。 注 意 在 标准 XML 里 ， 每 个 数据 项 的 起 始 和 闭合 
标签 都 是 重复 的 。 这 样 文档 右 消 冰 了 比 真实 数据 更 多 的 存储 空间 。 特 别 是 当 我 们 处 理 大 数据 集 或 具备 高 度 层级 化 结构 的 数据 时 ， 尝 试 导入 和 操 
作 这 些 数 据 都 会 消耗 很 多 内 存 。 


对 于 打开 XML 文 件 的 操作 ， 比 较 好 用 的 是 那些 能 突出 文档 语法 并 根据 元 素 在 层级 结构 中 的 层次 产生 自动 缩 进 的 程序 。 所 有 主流 浏览 器 的 当 


前 版 本 都 具备 充分 的 XML 文件 解析 能 力 ， 你 单 用 的 代码 编辑 器 很 可 能 也 具备 XML 标识 功能 。 不 过 请 注意 ， 有 的 XML 文件 可 能 会 非 钊 大 ， 包 含 上 
下 万 行 数 据 ， 所 以 打开 它们 会 需要 不 少时 间 。 


在 下 面 的 章节 ， 我 们 会 继续 讨论 XML 的 语法 。 我 们 会 学 习 如 何 把 XML 数据 导入 R 里 ， 以 及 如 何 将 其 转化 为 其 他 更 便于 分 析 的 数据 格式 。 我 
们 还 会 介绍 其 他 用 于 存放 多 种 类 型 的 数据 的 XML 衍生 结构 。 你 也 许 会 对 依赖 于 XML 的 大 量 应 用 程序 ， 以 及 如 何 利用 这 毕 知 识 进行 数据 抓 取 感到 


gm pa 
惊讶 。 


[1 不过， 作为 只 是 被 动 读 取 文档 的 XML 用 户 ， 我 们 很 少 对 这 类 语法 检查 工具 感 兴 趣 。 


3.2 XML 语 法 规则 


kee 


AAMT SNias—H, XMLBA-SazAWUNABITA, BSEXMLVSWUASRXENA. MIEN: XML 规 则 是 非常 简 
FRAY. 


3.2.1 “元素 和 属性 


再 看 一 眼 图 3-1。 它 解释 了 我 们 需要 了 解 的 XML 知 识 的 很 大 一 部 分 。 一 个 XML 文 档 水 远 以 声明 XML 文 档 的 一 行 代码 开头 : 


| <?xml version="1.0" encoding="ISO-8859-1"?> 


version= "1.0" 声 明了 所 用 的 XML 版 本 号 。 目 前 有 两 个 版 本 : XML 1.0 和 XML 1.1。 站 此 外 ， 虽 然 并 非 必要 ， 但 这 个 声明 中 可 以 包含 文档 的 
字符 编码 格式 ， 在 本 例 中 是 encoding= “ISO-8859-1”。 四 声明 中 可 以 包含 的 另 一 个 属性 (但 是 我 们 的 例子 中 没有 ) 是 standalone， 它 的 取 
值 是 yes 或 no， 用 于 指示 是 否 有 外 部 标记 声明 会 影响 文档 的 内 容 。 吕 | 


XML 文件 必须 有 且 仪 有 一 个 根 元 素 ， 它 包 右 了 你 个 文档 。 在 我 们 的 例子 里 ， 根 元 素 是 : 


<bond movies> 


Ww N = 


\ * 
<\bond movies> 





信息 通常 是 存放 在 元 素 中 的 。 一 个 XML 元 素 由 它 的 起 始 标 签 和 内 容 定 义 。 一 个 元 素 弟 常 有 一 个 闭合 标签 ， 但 也 可 以 在 起 始 标 签 里 用 一 个 冬 
杠 (/) 闭合 。 它 里 面 可 以 包含: 


` 其 他 元 素 。 
` 属性 ， 是 从 更 多 细节 来 描述 元 素 的 信息 。 属 性 和 元 素 一 样 是 存放 信息 的 位 置 ， 但 它们 的 内 部 不 能 再 包含 更 多 的 元 素 或 属性 了 。 
` 数据 ， 任 何 形式 和 长 度 的 ， 如 文本 、 数 字 或 符号 。 


" 所 有 合法 内 容 的 混合 体 ， 听 起 来 挺 复杂 的 ， 但 一 个 元 素 包含 其 他 带 有 数据 的 元 素 其 实 是 一 种 很 常见 的 情况 。 例 如 ， 图 3-1 里 的 元 素 都 包含 


了 一 个 属性 、 其 他 元 素 以 及 子 元 素 里 的 数据 。 


没有 数据 ， 没 有 其 他 元 素 ， 连 个 空格 都 没有 。 





我 们 来 看 一 下 上 述 XML 文 档 中 的 第 一 个 <title> 元 素 : 


| <title>Dr. No</title> 


它 的 组 成 部 分 有 : 

元 素 标 题 title 

起 始 标 签 、<title> 
终止 标签 ”</title> 
数据 值 DrNo 


我 们 已 经 从 HTML 里 熟悉 了 起 始 标签 一 终止 标签 的 逻辑 关系。 这 种 语法 的 优点 是 我 们 很 容易 残 能 在 文档 中 定位 某 个 特定 元 素 的 数据 ， 不 
党 它 在 第 几 行 或 第 几 层 。 在 上 述 例子 中 ，<title> 出 现 了 三 次 。 通 过 创建 一 个 类 似 于 “把 所 有 名 字 是 <title> 的 元 素 的 内 容 给 我 ”的 理 询 ， 我 们 可 
以 获取 所 有 这 三 个 元 素 。 这 就 是 在 第 4 草 会 介绍 的 内 容 ， 即 如 何 使 用 查询 语言 XPath。 更 紧凑 的 组 织 元 素 的 方式 如 下 : 





l <actors bond="Sean Connery" villain="Joseph Wiseman" /> 





这 个 元 素 包 含 了 : 
TA actors 


起 始 标签 ”<actorshttp://www.hzcourse.comy/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/15597/OEBPS/Text/.../> 


第 一 个 属性 名 bond 

第 一 个 属性 值 Sean Connery 
第 二 个 属性 名 villain 

第 二 个 属性 值 Joseph Wiseman 


在 这 个 例子 中 没有 终止 标签， 只 有 一 个 起 始 标签 。 这 融 是 所 谓 的 空 元 素 ， 因 为 元 素 中 不 包含 数据 。 空 元 素 都 是 以 一 个 斜 杠 (/) 闭合 的 。 当 
然 ， 如 果 要 咬文嚼字 ， 例 子 中 的 元 素 其 实 并 不 是 空白 的 。 正 如 在 HTML 里 一 样 ，XML 元 素 也 能 包含 提供 更 多 信息 的 属性 。 一 个 元 素 可 以 包含 的 
属性 是 无 限 的 。 上 例 中 的 元 素 有 两 个 属性 。 它 们 用 一 个 空格 分 开 。 属 性 永远 是 起 始 标签 的 一 部 分 ， 它 们 的 取 值 放 在 引号 里 ， 前 面 是 一 个 等 号 。 
存放 在 属性 里 的 信息 称 为 属性 值 。 属 性 值 必须 放 在 引号 里 ， 可 以 用 单 引 号 (如 bond= sean Connery’) 或 双 引 | 号 (如 bond="Daniel 
Craig") 。 不 过 ， 如 果 属 性 值 本 身 市 有 一 种 3 引号， 你 丈 必 须 用 另 一 种 引号 在 里 面 放 属性 值 了 : 


| <actors henchman="Richard 'Jaws' Kiel"/> 


由 于 XML 文 档 的 结构 具有 先天 的 灵活 性 ， 和 存放 同样 的 内 容 会 有 很 多 不 同 的 方式 。 注 意 在 图 3-1 的 实例 中 演员 信息 的 存放 方式 。 另 一 种 存放 方 
式 也 可 以 是 这 样 的 : 


<actors> 
<bond>Sean Connery</bond> 


<villain>Jospeh Wiseman</villain> 
</actors> 


A WW N = 





所 有 的 信息 都 保留 了 ， 不 过 演员 的 名 字 出 现在 存放 在 元 素 而 不 是 属性 里 。 这 两 种 方式 都 是 合法 的 。 属 性 的 问题 是 不 能 继续 分 支 ， 因 为 属性 
不 能 扩展 ， 而 且 只 能 包含 一 个 值 。 另 外 ,我们 友 现 ， 和 元 素 相 比 ， 属 性 更 难 读 取 ， 提 取 数 据 也 更 为 不 便 。 不 过 ， 它 们 也 并 非 一 无 是 处 。 看 一 有 眼 
图 3-1 中 的 代码 。 名 为 id 的 属性 值 可 以 用 来 使 同名 的 元 素 具备 唯一 的 识别 号 。 在 我 们 需要 操作 XML 树 中 某 个 特定 元 素 的 信息 时 ， 这 种 特性 束 用 得 


Efa 


3.2.2 ”XML 结构 


每 个 XML 文 档 都 可 以 表示 为 一 个 层级 树 。 这 种 数据 以 层级 形式 存放 的 情况 非常 适合 我 们 面临 的 多 种 数据 结构 : WE ISIE AH TRE. 
调查 对 象 的 反馈 意见 按 调 查 对 象 进行 从 套 。 选 票 按 投 票 站 进行 秦 套 ， 投 票 站 又 按 选 区 进行 能 套 ， 选 区 又 按 国家 进行 失 套 ， 以 此 类 推 。 图 3-2 给 
了 图 3-1 中 XML 代码 的 图 形 化 表示 。 最 顶部 的 是 根 元 素 <bond_movies>。 所 有 其 他 元 素 有 上 且 只 有 一 个 父 节点 。 实 际 上 ， 我 们 可 以 用 一 个 家 族 树 
来 对 整个 文档 进行 类 比 ， 把 每 个 元 素描 述 为 一 个 节点 : 


- movie 节 点 是 根 节 点 bond_movies 的 孩子 ; 


. movie 节 点 互 为 兄弟 ; 


.bond_tmovies 节 点 是 movie 节 点 的 父亲 ， 而 movie 节 点 是 titte，.……，boxo 人 fce 等 节点 的 父亲 ; 
- title，.…，boxoffice 等 节点 是 bond_movies 节 点 的 孙子 。 


注意 ， 在 图 3-2 中 ， 属 性 及 其 取 值 是 在 元 素 值 的 方 框 里 表示 的 ， 尽 管 它 们 也 可 以 看 作 XML 树 中 的 下 一 级 叶子 节点 。 不 过 ， 因 为 属性 不 能 是 其 
他 元 素 或 属性 的 父 节点 ， 所 以 它们 其 实 只 是 摘 述 元 素 的 内 容 而 不 是 独立 节点 。 


元 素 之 间 必 须 严格 苦 套 ， 这 意味 着 不 允许 交叉 骨 套 。 非 法 文档 结构 的 一 个 例子 如 下 所 示 : 


<family> 
<fathersJack</father> 
<mother>Josephine</mother> 
<child>Jonathan 
<family> 


<mother>Julia</mother> 
<child>Jeff</child> 
</family> 
</family> 
</child> 
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© 





<bond_movies> 





id="2" id="3" 





atl 


Skyfall — 





<year> 


T 


Live and Let Die 





or | 


bond="Sean Connery" 
villain="Joseph Wiseman" 


bond="Roger Moore" bond="Daniel Craig" 


villain=" Yaphet Kotto” 





villam= Javier Bardem" | 


<budget> 





<budget> <budget> © 


P/N 
ET 
1108.6M 





图 3-2 ”XML 文档 的 树 形 视角 
从 理论 上 说 ， 取 值 为 Jonathan 的 <child> 元 素 可 以 成 立 一 个 新 的 <family> 分 支 ， 里 面包 含 了 Jonathan 的 妻子 Julia 和 他 们 的 孩子 Je 人 f， 这 样 


也 是 说 得 通 的 。 问 题 在 于 ，Jonathan 所 在 的 <child> 元 素 必须 在 整个 家 庭 的 <family> 元 素 之 内 闭合 。 


3.2.3 ”命名 及 特殊 字符 


XML 的 长 处 之 一 是 我 们 基本 上 可 以 任意 选择 元 素 的 名 字 。 不 过 也 有 一 些 命名 规则 : 
. 元 素 名 字 可 以 是 字母 、 数 字 和 其 他 字符 的 组 合 ， 如 <name1>…</name1>。 类 似 a、0、 习 EE、&E 或 a 的 特殊 字符 也 是 可 以 用 的 ， 但 是 最 好 不 
要 用 : 它们 会 限制 XML 文件 的 跨 系 统 兼 容 性 。 
` 名 字 不 能 以 数字 开头 ， 如 <123name>http://www.hzcoufse.comytesoutce/teadBook? 


path= /openresoutces/teach_ebook/uncompressed/15597/OEBPS/Text/...</123name> . 


+ 名 字 不 能 以 英文 句号 开头 ， 如 <.name>http:/ /www.hzcoufse.comy/tesoutce/feadBook? 


path= /openresoutces/teach_ebook/uncompressed/15597/OEBPS/Text/...</.name> o 


` 名 字 不 能 以 xml (或 者 XML、Xml 等 大 小 写 变 体 ) FAARF, 4e<xml.trootname>http://www.hzcourse.com/resoutce/readBook? 


path= /openresoutces/teach_ebook/uncompressed/15597/OEBPS/Text/...</xml.tootname> . 
.元素 和 属性 的 名 字 是 区 分 大 小 写 的 。<movie>、<MOVIE> 或 <Movie> 都 不 一 样 。 


` 名 字 不 能 包含 空格 ， 如 <my family>http://www.hzcourse.com/resource/teadBook? 


path= /openresoutces/teach_ebook/uncompressed/15597/OEBPS/Text/...</my family> 。 


和 HTML 的 情况 类 似 ， 有 一 些 字符 因为 在 标记 中 有 特殊 用 途 ， 所 以 不 能 直接 原样 地 用 在 内 容 中 。 要 在 内 容 里 表示 这 些 字符 ， 束 必须 用 转 义 
字符 串 来 代表 它们 。 这 些 实体 在 表 3-1 里 列 出 ， 用 法 如 下 所 示 : 


] <actor protagonist="Scarlett O&apos;Hara"/> 
2 <math wisdom>piégt;3</math wisdom> 


特殊 字符 也 不 一 定 每 次 都 需要 转 义 。 例 如 ， 有 时 候 引 号 融 不 用 ， 上 例 中 的 "Richard Jaws Kiel|"， 引 号 的 含义 是 明确 的 ， 因 为 属性 值 已 经 被 
双 引 号 括 起 来 了 。 在 XML 元 素 值 中 使 用 引号 通 贡 也 没有 太 大 问题 ， 因 为 它们 在 元 素 值 里 没有 什么 特殊 舍 义 ， 仅 仪 是 在 标签 内 部 作为 属性 值 的 限 
定 符 而 已 。 


表 3-1 预定 义 的 XML 实体 


F FF 实体 引用 说 明 
&gt ; 天 于 
&quot ; 5l 
s &apos; 单 引号 


3.24 ”注释 及 字符 数据 


XML 的 语法 提供 了 一 种 对 内 容 进行 注释 的 方式 


] <!-- an arbitrary comment --> 


<! -- 和 --> 之 间 的 所 有 内 容 都 不 被 当 作 XML 代 码 的 一 部 分 ， 从 而 会 被 解析 器 所 忽略 。 注 释 可 以 用 在 标签 之 间或 元 素 内 容 之 内 ， 但 不 能 在 
元 素 名 或 属性 名 的 内 部 使 用 。 


在 数据 值 中 有 较 多 需要 转 义 的 元 素 的 情况 下 ， 转 义 字符 捉 的 使 用 会 相当 见长 罕 蒙 。 例 如 ， 假 如 下 面 的 字符 串 需 要 存放 在 XML 文 件 中 : 


l Le 3 g pl a 9 = Barcel) <— 1" 081. Ss =2 = ags 


在 XML 代码 中 ， 这 个 例子 可 能 翻译 成 了 


] 1 &lt; 3 &lt; pi &lt; 9 &lt;= sqrt(81) &lt; l&apos;081 &gt; -2 &gt; -999 





为 了 避免 这 种 乱七八糟 的 结果 ，XML 提 供 了 一 套 阻 止 内 容 馈 翻译 的 环境 。 它 被 称 为 CDATA， 使 用 的 情况 如 下 所 示 : 


<! [CDATA | 


Li gpi <= 3 <= Bort(6l) = 1'081 = 二 = =999 
] ] > 





所 有 在 CDATA 部 分 里 的 字符 都 是 原样 保留 的 。 注 释 和 CDATA 部 分 的 区 别 是 ， 注 释 不 是 文档 的 一 部 分 : 


<?xml version="1.0" encoding="ISO-8859-1"?> 
<bond movies> 
<movie id="1"> 
<title>Dr. No</title> 
<year>1962</year> 
<actors bond="Sean Connery" villain="Joseph Wiseman"/> 


<budget>1.1M</budget> 
<boxoffice>59.5M</boxoffice> 
</movie> 


<!-- more movies & details to follow here! --> 
</bond movies> 





而 CDATA 区 块 是 这 样 : 


l <?xml version="1.0" encoding="ISO-8859-1"?> 
2 <bond movies> 
3 <movie id="1"> 


4 <title>Dr. No</title> 

5 <year>1962</year> 

6 <actors bond="Sean Connery" villain="Joseph Wiseman"/> 
7 <budget>1.1M</budget> 

8 <boxoffice>59.5M</boxoffice> 

9 <deadpeople> 

10 <! [CDATA [ 

11 "John Strangways" & "Chauffeur" & "Prof R.J. Dent" 
12 & "Quarrel" & "Dr. No" 

13 lis 

14 </deadpeople> 

15 </movie> 


16 </bond movies> 


如 果 在 一 个 XML 文件 里 编写 上 面 两 个 片段 ， 并 在 浏览 器 中 打开 它 ， 注 释 部 分 或 者 不 会 显示 出 来 ， 或 者 显示 了 但 不 会 被 标 出 作为 XML 的 一 部 
分 。 相 比 之 下 ，CDATA 部 分 会 在 树 中 显示 出 来 。 如 果 删 除 CDATA 标 签 ， 就 会 产生 一 个 错误 ， 因 为 浏览 器 无 法 解析 & 符 号 和 引号 。 


你 可 以 自己 尝试 一 下 。 把 前 面 的 代码 片段 用 你 的 文本 编辑 器 保存 为 一 个 XML 文 件 ， 并 在 浏览 器 里 打开 它 。 修 改 XML 文 件 的 内 容 并 保存 ， 然 
后 在 浏览 器 里 重新 加 载 它 。 试 验 进行 合法 及 非法 的 修改 。 你 可 以 尝试 特殊 字符 、 交 又 绍 套 的 标签 ， 以 及 禁止 使 用 的 元 素 名 。 


3.2.5 ”XML 语法 总 结 


忆 结 一 下 ，XML 语 法 包含 以 下 一 组 规则 : 

1) XML 文 档 必须 有 一 个 根 元 素 。 

2) 所 有 元 素 必须 有 起 始 标 签 并 且 是 闭合 的 ，XML 声 明 除 外 ， 它 并 非 实际 XML 文 档 的 一 部 分 。 
3) XML 元 素 必 须 正 确 地 椭 套 。 

4) XML 属性 值 必须 加 引号 。 


5) 标签 用 字符 和 数字 命名 ， 但 不 能 以 数字 或 “xml” 开 头 。 


6) 标签 名 不 能 包含 空格 ， 而 且 区 分 大 小 写 。 


8) 某 些 字符 是 非法 的 ， 必 须 蔡 换 为 元 字符 。 


9) 注释 要 用 <! --comment--> 的 形式 加 入 。 


10) 不 需要 解析 的 内 容 用 <! [CDATAL...]] > 表示。 


1] 两 种 现 有 版 本 的 差异 是 边缘 性 的 ， 与 我 们 通常 不 感 兴趣 的 编码 问题 相关 。 


[2] 要 了 解 更 多 关于 编码 的 知识 ， 


请 参阅 8.3 节 。 


[3] 要 了 解 更 多 相关 信息 ， 请 访问 http://www.w3.org/TR/xml/#sec-rmd 关 于 W3C 的 说 明 。 


3.3 ”结构 民 好 或 合法 的 XML 文档 的 条 件 


简 而 言 之 ，XML 文 档 结构 良好 的 条 件 是 遵循 3.2 节 的 所 有 语法 规则 。 从 XML 文 档 中 提取 信息 的 技术 都 依赖 于 合理 编写 的 语法 。 如 果 对 某 个 
XML 文档 的 结构 有 疑问 ， 有 几 种 办 法 可 以 检查 。 例 如 ， 在 http://www.xmlvalidation.comy/ 网 站 的 XML 校 验 器 会 检查 起 始 和 终止 标签 的 不 匹 
配 、 属 性 值 是 否 加 引号 、 是 否 使 用 了 非法 字符 等 情况 ， 简 短 地 过 就 是 : 是 否 有 违反 规则 的 情况 。 


我 们 可 以 区 分 结构 良好 和 合法 的 XML。XML 文 档 合 法 的 条 件 是 : 


1) 结构 展 好 ; 


2) 遵循 了 文档 类 型 定义 (DTD) 的 规则 。 


正如 我 们 所 见 ，XML 文 档 的 结构 可 以 是 任意 的 : 标签 名 和 层次 结构 的 深度 都 是 用 户 自 定义 的 。 不 过 ,通过 文档 类 型 定义 (DID) 这 种 方式 
可 以 限制 其 任意 性 。DTD 是 一 套 定义 了 XML 结构 、 元 素 命 名 方式 及 其 应 该 包含 的 数据 类 型 的 声明 。 一 个 天 于 图 3-1 的 实际 例子 的 DTD 如 下 : 


<?xml version="1.0" encoding="ISO-8859-1"?> 


< DOCTYPE 
< ! ELEMENT 
< ! ELEMENT 
< ! ELEMENT 
< ! ELEMENT 
< ! ELEMENT 
< ! ELEMENT 
< ! ELEMENT 
<!ATTLIST 


bond movies | 

bond movies (movie) > 

movie (title, year,actors, budget, boxoffice) > 
title (#PCDATA) > 

year (#PCDATA) > 

actors (#PCDATA) > 

budget (#PCDATA) > 

boxoffice (#PCDATA) > 

actors 


bond CDATA #IMPLIED 
villain CDATA #IMPLIED> 


<!ATTLIST 


i 


movie id CDATA #IMPLIED> 


<bond movies> 


<\bond movies> 





在 这 个 XML 文档 的 变 体 中 ，DTD 被 加 入 了 XML 文档 并 包 右 在 一 个 DOCTYPE 定 义 <! DOCTYPE 
bond _ movies[http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ ebook/uncompressed/15597/OEBPS/Text/...]> 的 内 部 。 这 种 形式 成 为 内 部 DTD。 因为 我 们 以 网 络 抓 取 为 目 
的 ， 一 般 不 需要 编写 DTD 的 能 力 ， 所 以 我 们 不 会 讲解 该 声明 的 每 一 个 细节 ， 而 是 针对 DTD 的 形式 讲述 一 些 基 本 知识 。 对 元 素 的 声明 如 下 : 


l <!ELEMENT element (#PCDATA)> <!-- element contains only parsed 
character data --> 


N 


<!ELEMENT element ANY> <!-- element contains any data that can be 
parsed --> 





元 素 的 子 元 素 的 声明 如 下 : 


<!ELEMENT element (child1,child2,child3,...)> 
<!ELEMENT element (childl)> <!-- child occurs only once --> 


<!ELEMENT element (childl+)> <!-- child occurs 1 or more times --> 
<!ELEMENT element (childi*)> <!-- child occurs 0 or more times --> 
<!ELEMENT element (child1?)> <!-- child occurs at most once --> 
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对 于 混合 内 容 的 声明 稍微 复杂 一 些 。 例 如 ， 如 果 某 个 元 素 包 含 了 一 个 或 多 个 <child1> 到 <child3> 的 元 素 实 例 或 直接 解析 的 字符 数据 ， 声 明 
的 例子 如 下 : 


1 | <!ELEMENT element (child1|child2|child3|#PCDATA) +> 


对 属性 的 声明 例子 如 下 所 示 : 


l <!ATTLIST element attribute CDATA #IMPLIED> 


IMPLIED 属 性 值 的 意思 是 对 应 的 属性 是 可 选 的 ，REQUIRED 残 代表 该 属性 是 必需 的 。 有 好 几 个 在 线 工具 可 以 根据 一 个 DTD 来 校 验 XML 文 
件 。 只 要 在 搜索 引擎 里 输入 “dtd validation” 然后 在 搜索 结果 里 找 一 个 靠 前 面 的 就 行 了 。 


为 什么 我 们 要 关心 XML 文 档 是 否 结 构 民 好 或 合法 呢 ? 首先 很 重要 的 一 点 是 要 知道 很 多 XML 文 件 的 标 头 是 市 有 内 部 DTD 的 。 忆 的 来 说 ，DTD 
有 多 种 作用 。 如 果 发 送 者 和 接收 者 都 能 提前 知道 他 们 将 要 发 送 和 接收 的 内 容 ， 数 据 交换 过 程 就 能 标准 化 。 作 为 友 送 者 ， 你 可 以 检查 你 自己 的 
XML 文 件 是 否 合 法 。 作 为 接收 者 ， 也 可 以 检查 你 接收 到 的 XML 数 据 是 人 否 是 你 或 你 的 程序 所 期 望 的 类 型 。 


DTD 本 身 只 是 多 种 XML 模式 语言 乙 一 。 这 种 模式 语言 有 助 于 摘 述 和 限制 XML 文档 中 的 结构 和 内 容 。 另 外 一 种 模式 语言 是 XML 格式 
(XSD) ， 它 是 由 W3C 制 定 的 。 它 让 用 户 能 利用 XML 语 法 定义 模式 ， 也 具有 一 些 优点 ， 但 这 些 优点 对 于 我 们 的 目标 用 处 不 大 。XML 模 式 可 以 大 
显 身手 的 一 个 领域 是 XML 扩展 ， 这 是 3.4 节 的 主题 。 


34 XML 扩展 与 技术 


我 们 已 经 看 到 ， 因 为 XML 是 可 扩展 的 ， 从 而 是 灵活 的 ， 所 以 它 相 对 HTML 来 说 ， 在 网 络 数据 交换 方面 具有 一 定 优势 。 不 过 ， 灵 活性 也 会 带 
来 潜在 的 不 确定 性 或 不 一 致 性 问题 ， 如 同样 的 元 素 名 用 于 不 同 内 容 的 情况 。 现 在 已 经 有 一 些 相关 的 扩展 和 技术 ， 它 们 可 以 通过 引入 标准 或 提供 
设 定 标准 的 技术 等 方式 来 提高 XML 的 可 用 性 。 在 本 节 中 会 介绍 这 些 技术 中 最 重要 的 几 个 。 
3.4.1 命名 空间 


考虑 下 面 的 两 段 HTML 和 XML 代码 : 


<head> 
<title>Basic HTML Sample Page</title> 
</head> 


Ww N = 





<book. id="1"> 
<author>Douglas Crockford</author> 
<title>JavaScript: The Good Parts</title> 
</book> 


e Ww N 一 


这 两 段 代 码 都 在 <title> 元 素 里 仓 放 了 信息 。 如 果 这 些 XML 代 码 是 获 套 企 HTML 代 码 里 的 ， 融 会 产生 混乱 。 正 如 我 们 将 要 看 到 的 ， 有 很 多 
XML 扩展 用 来 存放 特定 的 数据 ， 如 地 理 数据 、 图 像 数 据 或 财务 数据 。 所 有 这 些 语言 其 实 是 市 有 限定 词汇 表 的 XML。 当 在 一 个 文档 中 用 到 了 多 个 
这 种 基于 XML 的 语言 的 时 候 ， 如 果菜 个 元 素 或 属性 名 在 多 个 地 方 都 有 赋值 ， 它 们 融 可 能 会 相互 混淆 。XML 命 名 空间 融 是 用 来 规避 这 类 问题 的 。 
CHIR: 对 容易 渴 消 的 元 素 ， 如 果 给 它们 分 别 加 上 某 个 唯一 性 识别 码 ， 它 们 殊 变 成 可 分 辨 的 了 。 丈 像 邮 政 编码 可 以 区 分 很 多 名 为 
springfield 的 不 同 地 址 ， 以 及 区 域 码 可 以 让 不 同 地 区 的 电话 号 码 不 会 混淆 一 样 ， 命 名 空间 能 够 让 元 素 和 属性 唯一 可 识别 。 


命名 空间 的 实现 是 很 直观 的 : 


l <root xmlns:h="http://www.w3.org/1999/xhtml" 
2 xmlns:t="http://funnybooknames.com/crockford"> 


4 <h:head> 
5 <h:title>Basic HTML Sample Page</h:title> 
6 </h:head> 
8 <t:book id="1"> 
<t:author>Douglas Crockford</t:author> 
10 <t:title>JavaScript: The Good Parts</t:title> 
11 </t:book> 
13 </root> 





在 这 个 例子 里 ， 命 名 空间 是 在 根 元 素 里 声明 的 ， 它 使 用 了 xmlns 属 性 和 两 个 前 缀 (h 和 t) 。 命 名 空间 的 名 字 ， 也 就 是 命名 空间 的 属性 值 ， 通 
常 带 有 一 个 指向 某 个 互联 网 地 址 的 统一 资源 识别 码 (URI) 。 上 面 例 子 里 的 两 个 URI 分 别 指 向 的 是 现 有 W3C 主 页 的 互联 网 资源 和 一 个 虚构 的 域名 
funnybooknames.com。 当 处 理 命名 空间 的 时 候 ， 请 记 住 下 列 规则 : 


“ 命名 空间 可 以 在 根 元 素 或 任何 其 他 元 素 的 起 始 标签 内 声明 。 在 后 一 种 情况 下 ， 该 元 素 的 任何 子 元 素 都 被 看 作 该 命名 空间 的 一 部 分 。 


` 命名 空间 的 名 字 不 一 定 必 须 是 可 用 的 URL。 解 析 器 永远 不 会 跟踪 链接 ， 更 不 用 说 URI 了 。 任 何其 他 的 字符 串 都 可 以 有 用。 不过， 通常 的 做 法 
是 用 URI， 这 有 两 个 原因 : 首先 ， 它 们 是 较 长 而 且 独 一 无 二 的 字符 串 ， 不 太 可 能 会 发 生 重 复 ; 其 次 ， 实 际 的 URL 能 引导 人 类 读者 看 到 有 关 的 网 
页 ， 里 面 可 以 给 出 有 关 该 命名 空间 的 更 多 信息 。 旧 

前 缓 (prefix) 不 一 定 要 显示 声明 ， 因 此 声明 内 容 可 以 是 xmlns 或 xmlns: ptefix。 如 果 前 组 被 去 掉 了 ，xmlns 就 被 假定 为 缺 省 命名 空间 ， 任 何 
没有 前 缓 的 元 素 都 会 被 视 为 在 该 缺 省 命名 空间 里 。 如 果 有 前 缓 ， 它 在 声明 中 就 会 绑 定 到 一 个 命名 空间 。 不 过 ， 属 性 永远 不 会 属于 缺 省 命名 空 
间 o 


3.4.2 XML 的 扩展 


迄今 为 止 ， 我 们 吹捧 了 一 慢 XML 的 灵活 性 和 扩展 能 力 。 不 过 ， 标 准 化 在 数据 交换 的 场景 中 也 是 有 其 益处 的 。 回 想 一 下 浏览 器 处 理 HTML 的 
方式 。 它 们 “知道 ”一 个 表格 看 上 去 是 什么 样子 的 ， 标 题 应 该 如 何 设置 格式 ， 等 等 。 总 体 而 言 ， 许 多 数据 交换 过 程 都 可 以 标准 化 ， 因 为 友 送 者 


和 接收 者 对 于 要 交换 的 数据 的 内 容 和 结构 具有 共识 。 


按照 这 样 的 逻辑 ， 众 多 XML 语言 的 扩展 被 开发 出 来 ， 它 们 都 把 XML 经 典 的 开放 特性 和 标准 化 市 来 的 共处 融 为 一 体 。 从 这 个 意义 上 说 ，XML 
已 经 成 为 了 一 种 重要 的 元 语言 一 一 它 为 其 他 XML 标记 语言 提供 了 总 体 架 构 。XML 的 多 种 衍生 品 都 依赖 于 XML 模式 来 表述 它 所 允许 的 结构 、 元 
素 、 属 性 和 内 容 。 表 3-2 列 出 了 一 些 最 流行 的 XML 衍生 品 。 在 它们 之 中 的 语言 有 用 于 地 理应 用 的 〈 如 KMIL 或 GPX 等 ) ， 也 有 用 于 网 络 订 阅 及 广 
泛 使 用 的 办 公文 档 格 式 的 。 你 也 许 会 惊讶 地 发 现 MS Word 大 量 使 用 了 XML。 为 了 获得 对 网 络 上 无 所 不 在 的 XML 扩展 的 基本 了 解 ， 我 们 重点 讨论 
两 个 流行 的 XML 标记 语言 : RSS 和 SVG。 


表 3-2 ”流行 的 XML 标记 语言 清单 








名 FR 用 ik 共同 的 文件 扩展 名 

Atom 网 络 订 阅 源 .atom 
RSS 网 络 订阅 源 TSS 
EPUB 打开 电子 书 .epub 
SVG .SVE 
KML 地 理 信息 视觉 化 kml、.kmz 
GPX GPS 数据 〈 航 点 、 轨 迹 、 路 线 ) .gpx 
Office 开放 XML MEK Office 文档 docx, .pptx, .xlsx 
OpenDocument Apache OpenOffice 文档 .odt, .odp, .ods, .odg 
XHTML HTML 扩展 和 标准 化 xhtml 

要 查看 更 完整 的 清单 ， 请 参阅 http://en.wikipedia.org/wiki/List_of_XMI, markup_languages。 

3.4.3 示例 : RSS 
网 络 用 户 音 志 都 会 逐渐 形成 目 己 的 一 个 单 用 网 页 书签 的 清单 。 定 期 得 看 这 些 站 点 上 的 新 内 容 是 件 紧 人 的 事情 。 真 正 简易 聚合 (Really 





Simple Syndication, RSS) 所 的 问世 就 是 来 解决 这 个 问题 的 一 不 仅 是 为 了 用 户 ， 也 是 为 了 内 容 提供 者 。 它 的 基本 思路 是 这 样 的 : 新 的 网 站 
和 博 主 等 内 容 提 供 者 可 以 把 他 们 的 内 容 转 化 为 一 个 可 以 聚合 给 任何 用 户 的 标准 格式 。 


我 们 用 图 3-3 来 描述 Rss 的 逻辑 。 博 客 或 新 闻 网 站 的 作者 设置 一 个 RSS 文 件 并 保存 在 Web 服 务 器 上 ， 里 面包 含 了 一 些 关 于 新 闻 提 供 者 的 信 
息 。 一 旦 博客 上 发布 了 新 内 容 ， 这 个 文件 融会 更 新 。 这 两 个 任务 通 弟 都 是 用 类 似 于 Rss builder 的 Rss 创建 程序 完成 的 。 文 章 条 目 或 通知 清单 通 
常 称 为 RSSLJ 阅 源 (RSS feed) 或 Rss 频道 (RSS channel) ， 可 以 位 于 类 似 http://www.example.net/feed.rss 的 位 置 。 它 是 用 XML 编写 ， 并 
遵循 RSs 格 式 的 规则 。 在 这 种 XML 变 体 里 允许 的 普通 元 系 在 表 3-3 列 出 。 有 一 些 元 素 摘 述 了 频道 ， 其 他 的 则 描述 单个 条 目 。 如 果 用 户 要 收集 频 
道 ， 可 以 通过 订阅 某 个 Rss 阅读 器 或 Feedly 这 样 的 聚合 器 网 上 站， 它们 会 自动 找到 给 定 网 站 的 RS 订阅 源 并 安排 相应 的 内 容 。 这 些 阅读 器 会 自动 更 
新 订阅 源 ， 并 提供 了 更 多 的 管理 功能 。 这 样 ， 用 户 就 能 把 他 们 感 兴趣 的 在 线 新 闻 组 织 起 来 了 。 


© 向 订阅 源 提出 订阅 
申请 

。 使 用 浏览 器 、 果 面 
或 手机 端 RSS 阅 读 咒 

”RSS 阅读 需 管 理 订 
阅 、 解 析 订 阅 源 、 
为 内 容 提 供 漂亮 的 
显示 


The squirrels blog 


A squirrel’s daily business 


October 23, 2013 
Today, I saw a squirrel in 
the... 


The ADCR blog 
Scraping the NFL 
October 23, 2013 

Today’s finger exercise 
will be to scrape historical 
data from NFL games... 





模式 


RSS 


例子 
RSS/XML 文 件 


<rss version="2.0"> 

«channel > 

<title>The squirrels blog<-/title> 
<linkshttp: //www.cutesquirrels.com/<-/link> 
<descriptions>All about squirrels! 
</description> 

<item> 

<titlesA squirrel’s daily business</title> 


<linkshttp: //www.cutesquirrels.com/131023 
«</link> 

<description=Today, I saw a squirrel in 
the... </description> 

</item= 


«</channel> 
</res> 





图 3-3 ”RSS 的 工作 原理 
表 3-3 普通 RSS 2.0 元 素 及 其 含义 清单 





, 博客 、 新 闻 媒 体 、 音 
频 、 视 频 等 

© 保存 在 Web 服 务 和 上 

* 在 RSS 频 道里 把 内 容 
标准 化 

* 提供 完整 或 摘要 的 内 
容 和 元 数据 


A squirrel’s daily business 
October 23, 2013 

Today, I saw a squirrel 

in the neighbor's garden 

collecting food for the 

winter. 


Squirrelogy #127: breeding 
October 26, 2013 

This time in our popular 
squirrelogy section, I want 
to talk about the breeding 
behavior of... 





元 素 名 
订阅 源 的 根 元 素 


channel — “Site AY ALG 
description” FAVA VY Da UR AY fE Fe BH 
订阅 源 网 站 的 URL 
Ly be RAN F 
Bima BR: 每 个 条 目 包 含 了 订阅 源 的 一 个 入口 
该 条 目的 URL 
该 条 目的 标题 
description® 该 条 目的 简短 描述 





该 条 目 作者 的 电子 邮件 地 址 
该 条 目 内 容 的 分 类 
scien 附加 内 容 ， 例 如 音频 
该 条 目的 唯一 识别 码 
图 片 显示 ( 需 配 合子 节点 <url>, <title> 和 <link>) 
汀 阅 源 的 语言 
该 条 目的 RSS 来 源 


ttl 驻 留 时 间 (time-to-live)， 订 阅 源 从 RSS 刷新 前 的 组 冲 时 间 


由 表示 这 些 元 素 是 强制 性 的 。 要 了 解 更 多 关于 RSS 2.0 规 范 的 信息 ， 请 参阅 http://www.rssboard.org/rss-specification。 


RSS 有 好 几 个 版 本 ， 当 前 的 是 RSS 2.0。RSS 语 法 一 直 是 相当 简单 的 ， 尤 其 是 对 那些 熟悉 XML 的 用 户 来 说 。 它 的 规则 也 是 很 严格 的 ， 也 残 是 
说 ， 它 有 一 套 非常 有 限 的 可 用 元 素 和 清晰 的 文档 结构 。 考 虑 一 个 本 书 配套 的 虚构 RSS 频 道 的 例子 ， 如 下 所 示 : 


<?xml version="1.0" encoding="UTF-8" ?> 
<rss version="2.0"> 
<channel> 
<title>The ADCR blog</title> 
<description>Blog to the ADCR book; Wiley 2014</description> 
<link>http://www.r-datacollection.com/blog</link> 
<lastBuildDate>Tue, 22 Oct 2013 00:01:00 +0000 </lastBuildDate> 
<item> 
<title>Why R is useful for web scraping</title> 
<description>R is becoming the most popular statistical 
software and is growing fast due to an active community 
publishing several additional packages every day. Yet, 
R is more than [...]</description> 


<link>http://www.r-datacollection.com/blog/why-r-is-useful</link> 
<pubDate>Tue, 22 Oct 2013 00:01:00 +0000 </pubDate> 
</item> 


</channel> 
</rss> 





Rss 文 档 的 前 两 行 以 一 个 XML 和 Rss 的 声明 开头 。<channel> 元 素 包 含 了 元 信息 和 实际 的 条 目 。 频 道 的 meta 数 据 块 有 三 个 必需 的 元 素 : 
<title>、<description> 和 <link>。 在 本 例 中 ， 还 有 另 一 个 可 选 元 素 <lastBuildDate> ， 它 说 明了 其 中 内 容 在 该 频道 最 后 一 次 更 新 的 时 间 。 


contentaqmikA—4 <item> mA. BAHU. MESSARRAUK, — TAY <item> AMS MOI RE. <item>7t 
素 又 有 三 个 必需 的 子 元 素 ， 它 们 分 别 叫 作 <title>、<description> 和 <link>。 核 心 内 容 通常 存放 在 <description> 元 素 里 。 有 时 候 整 个 条 目 都 
放 在 这 里 ， 有 时候 则 只 放 开 头 几 行 或 者 摘要 。 总 而 言 之 ，RSS 语 法 遵循 的 是 和 XMLi 语 法 相同 的 一 套 规则 。 


<?xml version="1.0" standalone="no"?> 
<!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN" 
"http: //www.w3.org/Graphics/SVG/1.1/DTD/svgl11.dtd"> 


lt ob = 


<svg xmlns="http://www.w3.org/2000/svg" version="1.1"> 

<ellipse cx="100" cy="70" rx="100" ry="70" style="f£ill:grey"/> 

<ellipse cx="110" cy="75" rx="80" ry="50" style="£i11:white"/> 

<text x="65" y="160" fill="blue" style="font-size:160; font-stretch: 
ultraexpanded;font-family:sans;font-weight:bold">R</text> 

9| </svg> 


co ~) DF ln 





图 3-4 SVG 代码 例子 : R logo 


论点 时 间 去 看 看 真正 的 RSS 订 阅 源 吧 。 它 们 在 网 上 随处 可 见 ， 带 有 一 个 RSS 图 标 作为 标记 。 其 中 有 几 个 关于 R 语 言 的 流行 新 闻 和 博客 平台 。 
例如 ， 你 可 以 看 看 http://planetr.stderr.org/， 它 会 发 布 新 的 R 组 件 (通过 Dirk Eddelbuettel 的 CRANberries 博 
客 http://dirk.eddelbuettel.com/cranberries/) ， 以 及 http://www.r-bloggers.com/， 这 是 一 个 从 Ri 语言 博客 圈 收 集 内 容 的 元 博客 平台 。 


RSS 2.0 并 非 唯一 的 内 容 聚 合格 式 。 除 了 它 的 各 种 前 期 版 本 ， 另 一 个 流行 的 标准 是 Atom， 它 也 是 基于 XML 的 ， 具 有 和 和 RSS 非常 相 似 的 语 
法 。 要 把 RSS 订 阅 源 抓 取 到 R 里 ， 我 们 可 以 使 用 3.5 书 讲解 的 XML 提 取 工 具 ，。 


3.4.4 示例 : 可 缩放 矢量 图 


一 个 更 独特 却 极其 流行 的 XML 扩 展 是 可 缩放 矢量 图 (Scalable Vector Graphics, SVG) 。SVG 用 于 表达 二 维 矢 量 图 形 。 它 由 W3C 从 1999 
年 开始 制定 ， 在 2001 年 首次 发 布 (Dailey 2010) 。 它 的 思路 是 创建 一 个 矢量 图 形 格式 ， 以 轻 量 级 和 灵活 的 形式 存放 图 形 信息 ， 用 于 在 网 络 上 进 
行 数据 交换 。 

矢量 图 形 格式 由 基本 几何 形式 组 成 ， 如 点 、 曲 线 、 圆 、 线 或 多 边 形 ， 全 部 都 能 用 数学 形式 表达 。 相 比 之 下 ， 光 栅 图 形 格式 是 把 图 形 信息 保 
存 为 一 个 像素 点 组 成 的 光栅 ， 也 就 是 特定 颜色 的 矩形 单元 。 和 光栅 图 形 相 比 ， 矢 量 图 形 可 以 缩放 而 不 损失 任何 图 形 质量 ， 通 常 也 更 小 巧 。 因 为 
SVG 格式 是 基于 XML 的 ， 所 以 SVG 图 形 可 以 用 普通 的 文本 编辑 器 进行 处 理 。 不 过 ， 也 有 一 些 能 简化 工作 的 SVG 编辑 器 。 例 如 ，lInkscape 就 是 一 
个 开源 的 图 形 编辑 器 ， 它 缺 省 支持 SVG 并 可 以 在 所 有 常见 操作 系统 上 运行 。D 要 查看 SVG 文件 ， 你 可 以 使 用 常见 浏览 器 的 当前 版 本 。 





图 3-5 ”图 3-4 中 代码 对 应 的 Rlogo 的 SVG 图 像 


要 体验 SVG 效果 的 第 一 印象 ， 图 3-4 给 出 了 一 个 小 SVG 文件 的 代码 。 这 段 代 码 产生 一 个 R 图 标的 程序 化 表示 ， 效 果 如 图 3-5 所 示 。 实 际 上 ， 如 
果 在 浏览 器 中 打开 一 个 包含 以 上 样 例 代 码 的 SVG 文件 ， 我 们 就 可 以 看 到 图 3-5 中 的 图 形 。SVG 语 法 不 仅 仪 是 类 似 XML， 它 实际 上 就 是 限定 了 合法 
元 素 和 属性 的 XML。 一 个 SVG 文件 以 普通 的 XML 声明 开始 。standalone 属 性 表明 该 文档 引用 了 一 个 外 部 文件 : 在 本 例子 中 是 第 2、3 行 描述 的 一 
个 外 部 DTD。 这 个 DTD 存 放 在 www.w3.org 中 ， 描 述 了 在 当前 的 SVG 1.1 版 (截至 2014 年 3 月 ) 中 哪些 元 素 和 属性 是 合法 的 。 描 述 该 图 形 的 实际 
SVG 代码 被 包 庄 在 <svg> 元 素 中 。 它 包含 了 一 个 命名 空间 和 一 个 版 本 属性 。 


SVG 使 用 一 套 预 先 定义 的 元 素 和 属性 来 表示 图 形 的 部 件 ( 即 “SVG 形 状 ”) 。SVG 的 基本 形状 包括 线 (<line>) . FBZ (<rect>) 、 
(<circle>) . $E] (<ellipse>) 、 多 边 形 (<polygon>) 、 文 字 (<text>) ， 以 及 所 有 形状 中 最 通用 的 : 路 径 (<path>) 。 这 些 元 素 中 的 
每 一 个 都 带 有 一 套 属性 ， 用 来 调整 相关 对 象 的 某 些 特性 ， 例 如 ， 对 角 的 位 置 、 圆 的 大 小 和 半径 等 。 元 素 被 放置 于 一 个 虚拟 的 坐标 系统 中 ， 原 点 
(0, 0) 的 位 置 是 左上 角 。 格 式 化 文本 也 可 以 放 到 图 形 中 。 元 素 的 顺序 是 很 重要 的 。 列 在 后 面 的 元 素 能 履 盖 前 面 的 元 素 ， 因 此 元 素 也 可 以 看 作 
图 层 。 此 外 ，SVG 带 有 一 个 特效 的 调 色 板 ， 如 钝 化 或 渐变 色 等 。 元 素 甚 至 可 以 有 动画 效果 。 一 个 复杂 的 SVG 图 形 通常 是 由 相当 复杂 的 SVG 代码 
产生 的 。 这 种 复杂 性 往往 并 不 是 来 自 高 度 层级 化 的 结构 一 一 大 部 分 元 素 通 常 只 是 根 元 素 的 子 元 素 而 已 一 一 而 是 来 自 于 大 量 的 元 素 及 其 属性 。 
3-5 的 简单 图 形 只 由 三 个 元 素 组 成 一 一 两 个 椭圆 和 一 个 文本 元 素 。 默 认 情况 下 ， 元 素 都 以 XML 元 素 语 法 中 的 紧凑 形式 出 现 : 元 素 通常 是 空 元 
素 ， 除 了 属性 中 给 出 的 信息 ， 元 素 内 部 不 包含 其 他 数据 。 





回 到 这 个 例子 ， 椭 圆 的 位 置 由 它们 的 属性 cx 和 cy 定义 ， 它 们 的 形状 则 是 由 水 平和 素 直 半径 rx 和 ry 确定 的 。 颜 色 和 其 他 效果 可 以 通过 style 属 
性 中 的 参数 传递 。 日 色 椭 贺 画 在 灰色 椭圆 之 上 ， 这 是 因为 它 在 代码 中 就 是 排 在 后 面 的 ， 这 样 束 产生 了 甜 甜 圈 的 效果 。 最 后 ， 大 写字 母 “R” 的 形 
状 、 颜 色 、 字 体 和 位 置 都 是 在 <text> 元 素 中 定义 的 。 


除了 矢量 图 相对 于 光栅 图 的 主要 优 操 ，SVG 还 有 其 他 一 些 特性 ， 使 之 成 为 有 吸引 力 的 网 络 图 形 标准 : 它 可 以 用 任何 文本 编辑 器 进行 编辑 、 
可 以 用 普通 浏览 器 打开 、 遵 循 和 基础 XML 相似 的 语法 、 而 且 是 针对 范围 广泛 的 应 用 来 制定 的 。 我 们 已 经 了 解 XML 是 灵活 的 ， 但 由 于 其 灵活 性 ， 
它 无 法 航 浏 览 器 进一步 解释 。 但 这 种 现象 对 于 SVG 这 样 的 XML 扩展 并 不 成 立 。 因 为 SVG 的 元 素 和 属性 集合 有 清晰 的 定义 ， 浏 览 器 融 可 以 作出 相 
应 的 实现 ， 把 SVG 内 容 显示 为 有 意义 的 图 形 而 不 只 是 代码 ， 正 如 它们 可 以 解释 并 显示 HTML 代 码 一 样 。 在 HTML5 中 ，SVG 图 形 甚至 可 以 像 如 下 
代码 那样 简单 府 套 : 


<html> 
<body> 


<Svg> <rect width="300" height="100"/> </svg> 
</body> 
</html> 


wn Ae WN 一 





为 什么 SVG 在 自动 化 数据 采集 的 领域 能 有 用 呢 ? 直观 的 印象 是 ，SVG 是 一 个 灵活 并 且 广 泛 应 用 的 矢量 图 形 格式 。 不 过 从 数据 采集 角度 看 ， 
它 并 不 仅仅 如 此 。 在 这 些 图 形 里 的 信息 一 一 而 且 往 往 不 止 是 那些 可 见 的 部 分 一 一 是 以 文本 形式 存放 的 ， 因 此 可 以 进行 搜索 、 划 分 子 集 等 操作 。 
SVG 在 网 络 上 日 渐 流 行 ， 并 在 越 来 越 复杂 的 任务 中 使 用 ， 如 保存 地 理 信 息 、 创 建交 互 地 图 或 把 海量 信息 图 形 化 显示 。 内 


从 上 面 两 个 例子 中 可 以 总 结 的 信息 是 : XML 应 用 在 很 多 不 同 的 蚀 域 ， 很 多 这 种 应 用 中 强 涵 了 潜在 的 有 用 信息 。 而 好 消息 是 : 我 们 会 了 解 用 R 
来 查找 和 处 理 这 些 信息 是 多 么 容易 的 一 件 事 ， 不 论 这 泽 信息 是 仓 放 人 在 “ 纯 ”XML 中 还 是 它 的 任何 扩展 中 。 


[1] 如 果 同 样 的 URL 被 反复 使 用 : 如 http://www.w3.otg/1999/xhtml， 这 就 减少 了 命名 空间 的 效用 。 因 此 ， 应 该 考虑 引用 你 自己 具有 完全 控制 权 的 
站 点 ， 如 存放 了 DTD 或 XMI 模式 的 自 有 网 站 。 

[2] 起初，RSS 是 RDF Site Summaty 的 缩写 ， 后 来 又 被 重新 定义 为 Rich Site Summary。 在 2002 年 再 次 被 修改 为 Really Simple Syndication. 

[3] 要 了 解 更 多 信息 和 下 载 Inkscape， 请 访问 http://inkscape.org/。 

[4] 要 更 深入 地 了 解 SVG， 请 查阅 Eisenberg (2002) 的 相关 文献 以 及 W3C 网 页 中 的 介绍 : http://www.w3.org/Graphics/SVG/. 4a RAM, ABA 


Dailey (2010) 编写 的 《SVG 入 门 》 一 书 应 该 会 有 用 。 


3.5 ”XML 和 OR 的 实 中 


现在 让 我 们 转 到 实际 例子 。 XML 文件 在 R 会 话 中 如 何 坦 看 、 如 何 导 入 、 如 何 访问 ， 以 及 如 何 把 来 目 XML 文档 的 信息 转化 为 更 便于 进一步 图 
形 化 或 统计 化 分 析 的 数据 结构 ， 例 如 单 规 的 数据 框 (data frame) 呢 ? 


正如 我 们 前 面 讲 到 的 ,XML 文件 可 以 在 所 有 的 文本 编辑 器 和 浏 多 器 中 打开 和 人 查看。 不 过 ， 文 本 编辑 器 通常 会 原封 不 动 地 使 用 XML 文 件 ， 而 
现代 浏览 器 则 会 自动 解析 它 并 闫 试 表 达 它 的 结构 。 当 XML 文档 不 合法 的 时 候 ， 这 个 过 程 融 会 失败 。 在 这 种 情况 下 ， 浏 览 器 可 能 会 通报 解析 失败 
的 原因 ， 例 如 ， 因 为 某 一 行 的 开放 和 闭合 标签 不 匹配 。 从 这 个 角度 说 ， 浏 览 器 对 于 检查 XML 是 否 结构 展 好 是 个 不 错 的 工具 。 在 标准 的 网 络 抓 取 
任务 中 ， 我 们 通常 不 会 逐个 文件 查看 XML 文 档 ， 而 是 在 第 一 步 下 载 它 们 ， 然 后 在 第 二 步 把 它们 导入 我 们 的 R 工 作 区 里 (参见 第 9 章 ) 。 


3.5.1 解析 XML 


我 们 解析 XML 的 原因 和 解析 HTML 网 页 的 原因 是 一 样 的 (参见 2.4.1 节 ) ， 也 融 是 对 XML 文件 产生 一 个 能 保留 原 结构 的 表征 ， 据 此 能 够 从 这 
些 文件 中 进行 简单 的 信息 提取 。 类 似 于 在 HTML 解 析 所 在 的 小 书 里 概述 的 内 容 ， 解 析 XML 的 过 程 实质 上 包括 两 个 步骤 。 首 先 ， 组 成 XML 文 件 的 
符号 序列 会 被 读 取 并 从 元 素 中 创建 层次 化 的 C 语 言 树 形 数 据 结 构 ， 其 次 ， 这 个 数据 结构 会 通过 使 用 处 理 器 翻译 为 R 语 言 的 数据 结构 。 


我 们 用 来 导入 和 解析 XML 文档 的 组 件 ， 名 副 其 实 ， 残 叫 作 XML (Temple Lang 2013c) 。 采 用 XML 组 件 ， 我 们 束 能 读 取 、 查 找 和 创建 XML 
文档 一 一 虽然 我 们 只 关心 前 两 个 任务 。 让 我 们 来 看 看 如 何 把 XML 文件 加 载 到 R 里 。 对 于 XML 文件 的 DOM 风 格 解析 法 ， 可 以 使 用 xmlParse () 
浮 数 。 该 浮 数 的 参数 和 htmlParse () 的 大 致 相同 。 我 们 利用 technology.xml 来 帮助 朱 述 这 个 过 程 ， 广 XML 文件 中 仔 族 了 三 个 扩 术 公司 的 股票 
言 息 。 文 档 开 始 的 几 行 如 图 3-6 所 示 。 正 如 我 们 所 见 ， 该 文件 包括 股票 信息 ， 例 如 ， 当 天 的 收盘 价 、 最 低 价 、 最 高 价 、 成 交 量 。 要 用 R 读 取 这 个 
XML 树 ， 我 们 可 以 把 文件 路 径 传递 给 xmlParse () 的 file 参 数 : 


R> library (XML) 
R> parsed stocks <- xmlParse(file = "stocks/technology.xml") 


<?xml version="1.0"?> 
<!DOCTYPE document SYSTEM "technologystocks.dtd"> 
<document> 
<Apple> 
<date>2013/11/13</date> 
<close>520.634</close> 
<volume>7022001.0000</volume> 
<open>518</open> 
<high>522.25</high> 
<low>516.96</low> 
<company>Apple</company> 
<year>2013</year> 
</Apple> 
<Apple> 
<date>2013/11/12</date> 
<close>520.01</close> 
<volume>7295400.0000</volume> 
<open>517.67</open> 
<high>523.92</high> 
<low>517</low> 
<company>Apple</company> 
<year>2013</year> 
</Apple> 
om 


</document> 





图 3-6 XML) FOF: 股票 数据 


xmlParse () 函数 用 于 解析 XML 文 档 。[1 解 析 函 数 提供 了 一 组 选项 ， 它 们 在 大 部 分 情况 下 可 以 忽略 ,但 仍然 是 值得 了 解 的。 通过 设置 这 些 
选项 ， 可 以 把 输入 内 容 当 作 XML 而 不 是 文件 名 (asText 选 项 ) ， 确 定 每 个 节点 需要 提供 的 是 命名 空间 URI 和 | 前缀 两 个 参数 还 是 只 需要 前 级 就 可 
以 了 (fulINamespacelnfo 选 项 ) ， 确 定 解 析 的 是 否 是 XML 模式 (isSchema 选 项 ) ， 或 者 是 否 用 一 个 DTD 去 校 验 XML (validate 选 项 ) 等 。 让 
我 们 更 详细 地 讨论 一 下 最 后 这 个 选项 。 


里 然 HTML 和 XML 在 大 部 分 情况 下 是 非常 相似 的 ， 它 们 还 是 存在 一 个 值得 注意 的 差别 ， 那 就 是 XML 受 限于 一 套 严格 得 多 的 规范 规则 。 正 如 
我 们 在 3.3 节 所 见 ， 合 法 的 XML 不 仅 必 须 是 结构 良好 的 ， 也 就 是 说 ， 标 签 必 须 闭 合 ， 属 性 值 必 须 用 引号 括 起 来 ， 等 等 ， 而 且 还 必须 符合 其 DTD 中 
的 规范 。 要 检查 文档 是 否 遵 循 了 规范 ， 可 以 通过 设置 validate 参 数 为 TRUE 来 引入 DOM 创 建 后 的 校 验 步骤 。 我 们 尝试 用 相关 的 外 部 
technologystocks.dtd (参见 图 3-7) 对 technology.xml 进 行 校 验 ， 该 DTD 存 放 在 我 们 的 文件 夹 中 并 在 XML 文件 的 第 二 行 引 用 (参见 图 3-6) : 


R> library (XML) 
R> parsed stocks <- xmlParse(file = "stocks/technology.xml", validate = TRUE) 


<!ELEMENT document (Apple, IBM,Google) > 

<!ELEMENT Apple (date,close,volume,open,high, low, company, year) > 
<!ELEMENT Google (date,close, volume, open,high, low, company, year) > 
<!ELEMENT IBM (date,close,volume,open,high, low, company, year) > 
<!ELEMENT close (#PCDATA) > 

<!ELEMENT company (#PCDATA) > 


<!ELEMENT date (#PCDATA) > 
<!ELEMENT high (#PCDATA) > 
<!ELEMENT low (#PCDATA) > 
<!ELEMENT open (#PCDATA) > 
<!ELEMENT volume (#PCDATA) > 
<!ELEMENT year (#PCDATA) > 





图 3-7 ”股票 数据 XML 文件 的 DID (参见 图 3-6) 


这 个 XML 没 有 不 符合 规范 的 地 方 ， 校 验 成 功 了 。 为 了 演示 在 XML 不 符合 给 定 DTD 时 会 友 生 的 情况 ,我 们 修改 了 DTD， 让 文档 节点 不 再 有 定 
义 。 结 果 是 ，XMLx 文 件 不 再 符合 该 (损坏 的 ) DTD， 校 验 函 数 提出 了 一 个 错误 : 


R> library (XML) 

R> stocks <- xmlParse(file = "stocks/technology-manip.xml", validate = TRUE) 
No declaration for element document 

Error: XML document is invalid 


忆 而 言 之 ， 用 DTD、XSD 或 其 他 模式 进行 XML 校 验 时 ， 它 相对 条 重 的 逻辑 不 应 该 阻挡 你 充分 利用 XML 的 DOM 结 构 的 力量 。 在 大 部 分 数据 
抓 取 的 情况 下 ， 校 验 文件 是 没有 必要 的 ,我 们 可 以 直接 对 它们 进行 原样 处 理 。 


3.5.2 ”对 XML 文 档 的 基本 操作 


一 旦 XML 文 档 被 解析 好 了 ， 我 们 就 可 以 使 用 一 套 XML 组 件 里 的 消 数 访问 它 的 内 容 。 即 使 要 推荐 使 用 更 加 通用 可 靠 的 XPath 来 人 XML 文档 中 
查找 和 抽取 信息 ， 在 这 里 我 们 还 是 要 介绍 一 些 适 用 于 不 那么 复杂 的 XML 文档 的 基本 操作 。 要 了 解 它们 是 如 何 起 作用 的 。 让 我 们 回 到 原先 的 实际 
例子 ， 先 解析 一 下 bond.xml 文 件 : 


R> bond <- xmlParse("bond.xml") 
R> class (bond) 
[1] "XMLInternalDocument" "XMLAbstractDocument" 


当 我 们 在 控制 台 输 入 bond 时 ， 控 制 台 的 输出 看 起 来 和 原始 XML 文件 非常 相似 。 不 过 ， 我 们 知道 bond 对 象 里 面 无 非 一 些 纯 文 本 数据 而 已 。 
例如 ， 我 们 可 以 对 根 元 泰 进行 一 些 基本 操作 。 顶 级 节操 可 以 用 xmlRoot () 函数 提取 出 来 ; xmIName () 和 xmlSize () 则 返回 这 个 root 元 素 
的 名 字 和 子 节点 数 : 


R> root <- xmlRoot (bond) 
R> xmlName (root) 

[1] "bond movies" 

R> xmlSize (root) 

[1] 3 


EURER, BAR Sines ERFA ERRN FFA ARS RES. tein, Fe BRS SSSA Reet 
REMY TRA. XX AAxmiParse () 产生 的 XMLInternalDocument 类 对 象 则 不 适用 了 。 所 以 ， 我 们 对 属于 XMLInternalElementNode 类 的 root 
对 象 进 行 操作 。 用 “1” 作 为 谓语 (predicate) 进行 厅 引 会 得 到 第 一 个 子 节操 : 


Bl, 


对 比 


RS root[[1]] 
<movie id="1"> 
<name>Dr. No</name> 
<year>1962</year> 
<actors bond="Sean Connery" villain="Joseph Wiseman"/> 
<budget>1.1M</budget> 
<boxoffice>59.5M</boxoffice> 
</movie> 


我 们 必须 使 用 双重 方 括 号 来 访问 内 部 节点 。 通 过 增加 另 一 个 索引 项 ,我们 可 以 继续 深入 节点 树 并 提取 出 第 一 个 子 节 点 的 第 一 个 子 节 氮 : 


R= root[[1]] [[1]] 
<name>Dr. No</name> 


元 素 名 也 可 以 作为 谓语 。 使 用 双重 方 括号 得 到 节点 树 的 第 一 个 元 素 ， 单 个 方 括号 则 返回 XMLinternalNodeList 类 的 对 象 。 要 查看 两 者 的 差 
可 以 作 如 下 比较 : 


R> root [["movie"]] 
movie id="1"> 
<name>Dr. No</name> 
<year>1962</year> 
<actors bond="Sean Connery" villain="Joseph Wiseman"/> 
<budget>1.1M</budget> 
<boxoffice>59.5M</boxoffice> 
</movie> 


R> root ["movie"] 
smovie 
<movie id="1"> 
<name>Dr. No</name> 
<year>1962</year> 
<actors bond="Sean Connery" villain="Joseph Wiseman"/> 
<budget>1.1M</budget> 
<boxoffice>59.5M</boxoffice> 
</movie> 


Smovie 


<movie id="2"> 
<name>Live and Let Die</name> 
<year>1973</year> 
<actors bond="Roger Moore" villain="Yaphet Kotto"/> 
<budget>7M</budget> 
<boxoffice>126.4M</boxoffice> 
</movie> 


Smovie 
<movie id="3"> 
<name>Skyfall</name> 
<year>2012</year> 
<actors bond="Daniel Craig" villain="Javier Bardem"/> 
<budget>175M</budget> 
<boxoffice>1108.6M</boxoffice> 
</movie> 


attr(,"class") 
[1] "XMLInternalNodeList" "XMLNodeList" 


名 字 和 序号 也 可 以 结合 使 用 。 要 返回 第 一 个 <name> 元 素 的 原子 值 ， 我 们 可 以 编写 如 下 代码 : 


R> root[["movie"]] [[1]] [[1]] 
Dr. No 


按照 上 面 的 方式 ， 对 和 象 的 结构 保持 得 很 好 ， 可 以 用 来 定位 元 素 及 其 值 。 不 过 ， 通 过 上 面 这 种 普通 谓语 来 查找 XML 文件 中 的 内 容 是 相当 复 
杂 、 易 于 出 错 而 且 极 不 万 便 的 。 此 外 ， 这 种 万 法 没有 利用 节点 之 间 的 天 系 一 一 这 可 是 被 解析 的 XML 文 档 的 核心 特性 。 对 任何 真心 想 分 析 XML 数 
据 的 同学 来 说 ， 有 充分 的 理由 好 好 学 习 XPath 这 个 非常 强大 的 查询 语言 。 我 们 会 在 第 4 草 讲 解 如 何 运 用 这 项 技术 。 


忆 而 言 之 ， 这 里 涉及 的 所 有 方法 和 规则 也 都 适用 于 其 他 基于 XML 的 语言 。 解 析 器 并 不 关心 文档 的 名 字 和 结构 ， 只 要 代码 是 合法 的 就 可 以 
了 。 因 此 ， 类 似 于 之 前 介绍 的 Rss 样 本 代码 也 可 以 很 容易 地 导入 : 


R> xmlParse("rsscode.rss") 
<?xml version="1.0" encoding="UTF-8"?> 
<rss version="2.0"> 
<Cchannel> 
<title>The ADCR blog</title> 
<description>Blog to the ADCR book; Wiley 2014</description> 
<link>shttp://www.r-datacollection.com/blog</link> 
<lastBuildDate>Tue, 22 Oct 2013 00:01:00 +0000 </lastBuildDate> 
<item> 
<title>Why R is useful for web scraping</title> 
<description>R is becoming the most popular statistical software 
and is growing fast due to an active community publishing several 
additional packages every day. Yet, R is more than [...]</description> 
<linkshttp://www.r-datacollection.com/blog/why-r-is-useful</link> 
<pubDate>Tue, 22 Oct 2013 00:01:00 +0000 </pubDate> 
</item> 
</channel> 
</Yrss> 


3.5.3 ”从 XML 获取 数据 框 或 列表 


有 时 候 ， 把 整个 XML 对 象 转换 为 如 向 量 、 数 据 框 或 列表 这 样 的 普通 R 数 据 结构 束 够 用 了 。XML 组 件 提供 了 一 些 相应 的 浮 数 ， 在 原始 结构 不 
是 太 复杂 的 情况 下 ， 可 以 干脆 利落 地 完成 这 样 的 操作 。 


单个 向 量 的 提取 可 以 用 xmlSApply 0 完成 ， 这 是 一 个 lapply () 和 sapply () 的 包 襄 函数 ， 用 于 处 理 给 定 XML 节 点 的 子 节点 。 该 函数 对 
一 个 XML 节点 (作为 第 一 个 参数 传递 ) 进行 操作 ， 对 其 子 节点 调用 任何 给 定 的 函数 (作为 第 二 个 参数 传递 ) ， 并 通常 返回 一 个 向 量 。 我 们 可 以 
把 这 个 函数 与 xmlValue () 和 xmlGetAttr () (以 及 其 他 函数 ， 详 见 表 4-4) 配套 使 用 ， 来 提取 元 素 或 属性 值 : 


R> xmlSApply(root[[1]], xmlValue) 
name year actors budget boxoffice 
"Dr. No" "1962" "Nn "1.1M" "59,5M" 
R> xmlSApply (root, xmlAttrs) 
movie.id movie.id movie.id 
W 1" "2 W "3 i 
R> xmlSApply(root, xmlGetAttr, "id") 
movie movie movie 
" 1" "2 W "3 W 


只 要 XML 文 档 在 层次 关系 上 是 扁平 的 ， 也 就 是 说 ， 离 根 节 点 最 远 的 杀 属 节点 是 其 孙子 节操 或 子 节点 ， 它 们 殊 能 用 xmlToDataFrame () 很 
轻松 地 转换 为 数据 框 : 


R> (movie.df <- xmlToDataFrame (root) ) 
name year actors budget boxoffice 


1 Dr. No 1962 1.1M 59.5M 
2 Live and Let Die 1973 7M 126.4M 
3 Skyfall 2012 175M 1108.6M 


不 过 请 注意 ， 这 样 的 为数 调用 在 <actor> 元 素 上 出 现 了 问题 ， 该 元 素 是 里 面 只 有 两 个 属性 的 空 元 素 。 因 此 ， 在 data.frame 对 象 里 对 应 的 变 
量 是 空 的 ， 对 此 只 能 痊 肩 表示 无 语 。 


相 类似 ， 用 xmlToList () 把 XML 转换 成 一 个 列表 也 是 可 以 的 : 


R> movie.list <- xmlToList (bond) 


XML 和 类 似 于 JSON 的 其 他 数据 交换 格式 能 够 存放 比 前 面 例子 复杂 得 多 的 数据 结构 。 这 就 是 它们 在 网 络 上 的 数据 交换 方面 如 此 强大 的 原因 。 
强制 把 这 些 结构 转换 为 一 个 普通 的 数据 框 会 市 来 一 定 的 成 本 一 一 复杂 的 数据 转换 任务 或 信息 的 丢失 。 说 到 xmlToDataFrame () ,对 于 它 的 名 
字 所 宣称 能 完成 的 任务 ， 它 也 并 非 万 能 函数 。 相 反 ， 在 这 种 情况 下， 我 们 往往 不 得 不 自行 开发 和 应 用 相关 的 提取 立 数 。 


3.5.4 ”事件 驱动 的 解析 


里 然 解析 3.5.1 节 里 的 XML 样 本 文件 在 R 里 很 快 束 能 处 理 好 ， 但 是 更 大 的 文件 会 产生 工作 内 存 超 负 和 葵 以 及 随 之 而 来 的 数据 管理 问题 。 作 为 一 
种 主要 针对 跨 服务 传递 数据 的 格式 ，XML 文 件 通常 比 HTML 文 件 大 得 多 。 在 很 多 情况 下 ， 文 件 大 小 会 超过 普通 提 面 和 笔记 本 PC 的 内 存 容量 。 这 
个 问题 在 涉及 数据 流 时 更 为 严重 ， 在 这 种 情况 下 ，XML 数 据 是 逐步 抵达 的 。 这 些 应 用 需求 束 不 适用 我 们 在 本 章 及 第 2 章 使 用 的 基于 DOM 的 解析 
方式 ， 而 是 需要 更 具 迭 代 风 格 的 方法 。 


产生 这 个 问题 的 根源 在 于 DOM 风 格 的 解析 器 处 理 和 存放 信息 的 方式 。 解 析 器 产生 给 定 XML 文 件 的 两 个 副本 个 作为 C 语 言 级 别 节 点 
集 ， 第 二 个 作为 R 语 言 的 数据 结构 。 要 检测 XML 文 件 里 的 特定 元 素 ， 我 们 也 可 以 通过 及 用 一 个 叫 事件 驱动 的 解析 或 SAX 解 析 ( 即 用 于 XML 的 简单 
接口 ，Simple API for XML) 的 解析 技术 来 应 对 这 种 问题 。 事 件 驱 动 的 解析 和 和 DOM 风格 解 析 的 差别 在 于 ， 它 跳 过 了 在 C 语 言 级别 创 建 完 整 
DOM 的 步 又 。 相 反 ， 事 件 驱 动 的 解析 器 会 顺序 毅 历 XML 文 件 ， 一旦 它们 友 现 了 某 个 感 兴趣 的 特定 元 素 ， 玖 会 触 友 一 个 实时 的 、 用 尸 定 义 的 对 该 
事件 的 反应 。 这 个 步 又 让 它 相 对 DOM 风 格 解 析 器 具有 了 一 个 巨大 的 优势 ， 因 为 电脑 内 存 永远 不 需要 容纳 整个 文档 。 





让 我 们 再 看 一 下 technology.xml 以 及 提取 有 关 Apple 公 司 股票 的 信息 提取 问题 。 假 设 我 们 要 获取 Apple 的 每 日 收盘 价 及 其 日 期 。 同 样 ， 我 们 
利用 处 理 器 函数 描述 如 何 处 理 感 兴趣 的 节点 。 类 似 于 2.4.3 忆 讨论 的 数据 提取 问题 ， 我 们 把 处 理 器 定义 为 一 个 认 套 函数 ， 把 它 和 一 个 引用 环境 和 


容器 变量 组 合 在 一 起 (参见 图 3-8) 。branchFun () 定义 了 两 个 局 部 变量 container close 和 container date， 它 们 在 这 里 就 作为 容器 变量 。 


因为 我 们 是 对 Apple 的 股票 信息 感 兴趣 ， 我 们 建议 采用 下 面 的 方法 : 首先 为 <Apple> 节 点 定义 一 个 处 理 器 浮 数 (代码 第 6、8 行 ) 。 在 这 些 元 素 
中 ， 我 们 再 去 找到 它们 的 子 节 点 中 名 字 为 date 和 close 的 节点 ， 并 返回 它们 的 值 (代码 第 7、9 行 ) 。 另 外 还 定义 了 一 个 返回 函数 
getContainer () (代码 第 12 行 ) ， 它 把 容器 变量 的 内 容 组 合成 一 个 数据 框 ， 并 返回 这 个 对 象 。 


branchFun <- function() { 
container close <- numeric() 


fat b = 


container date <- numeric () 


5 "Apple" = function(node,...) { 

6 date <- xmlValue(xmlChildren (node) [[c("date") ]]) 

7 container date <<- c(container date, date) 

8 close <- xmlValue(xmlChildren (node) [[c("close")]]) 

9 container close <<- c(container close, close) 

10 #print(c(close, date)) ;Sys.sleep(0.5) 

11 } 

12 getContainer <- function() data.frame(date=container date, 
close=container close) 

13 list (Apple=Apple, getStore=getContainer) 

14 





图 3-8 ”用 于 事件 驱动 的 解析 的 R 代 码 
要 创建 一 个 可 用 的 处 理 器 函数 实例 ， 我 们 执行 上 面 定 义 的 函数 并 把 它 的 返回 值 传递 给 一 个 叫 h2? 的 新 对 象 : 


R> (h5 <- branchFun() ) 
ŞApple 
function (node, ...) 


{ 
date <- xmlValue (xmlChildren (node) [[c("date")]]) 
container date <<- c(container date, date) 
close <- xmlValue (xmlChildren (node) [[c("close")]]) 
container close <<- c(container close, close) 


} 


<environment: Ox0000000008c4afa8> 


SgetStore 

function () 

data.frame(date = container date, close = container close) 
<environment: 0x0000000008c4afa8> 


现在 一 切 就 绪 ， 我 们 可 以 利用 XML 组 件 里 的 xmlIEventParse () 卫 数 对 technology.xml| 文 件 运行 该 SAX 解 析 器 。 这 次 ， 我 们 会 把 处 理 器 国 
数 传 给 branches 参 数 而 不 是 handlers 参 数 。branches 参 数 是 handlers 的 更 通用 的 版 本 ， 它 能 够 为 整个 节点 的 内 容 (包括 其 子 节点 ) 指定 函数 。 
这 恰恰 是 我 们 手头 的 任务 所 需要 的 ， 因 为 在 处 理 器 函数 h5 里 ， 我 们 已 经 在 利用 xmlChildren 函 数 来 查找 子 节点 的 信息 了 。 此 外 ， 对 于 handlers 
参数 ， 我 们 需要 传递 一 个 空 列表 : 


R> invisible (xmlEventParse (file = "stocks/technology.xml", 
branches = h5, handlers = list())) 


B TRARNE RE, EART TANER S Fi ASAX ETES. eS, BANERNE, RAJAA 
() 


getStore () 函数 并 把 得 到 的 内 容 赋值 给 一 个 新 的 对 象 : 


R> apple.stock <- h5S$getStore() 


为 了 验证 解析 过 程 是 否 成 功 ， 我 们 来 显示 一 下 返回 数据 框 的 前 5 行 : 


R> head(apple.stock, 5) 

R> # date close 1 2013/11/13 520.634 2 2013/11/12 520.01 3 2013/11/ 
11 519.048 4 

R> # 2013/11/08 520.56 5 2013/11/07 512.492 


正如 我 们 所 见 ， 事 件 驱动 的 解析 是 有 效 的 ， 它 返回 了 正确 的 信息 。 不 过 ， 我 们 不 推荐 用 尸 把 这 种 风格 的 解析 方式 作为 人 XML 文档 获取 数据 
的 优先 手段 。 虽 然 事 件 驱 动 的 解析 在 速度 方面 超过 了 DOM 风格 的 解析 ， 而 且 在 处 理 超级 大 的 XML 文 件 的 情况 下 它 有 可 能 是 唯一 可 行 的 方法 ,但 
是 它 需 要 大 量 的 代码 ， 还 需要 对 R 消 数 和 环境 具备 较 多 的 背景 知识 。 因 此 ， 对 于 在 本 书 中 处 理 的 中 小 型 文档 ， 后 几 章 还 是 会 专注 于 通过 XPath 查 
询 语 言 提 供 的 DOM 风 格 的 解析 和 提取 方法 (参见 第 4 章 ) 。 


[1] XML 组 件 提 供 了 一 套 其 他 的 XML 解析 函数 ， 即 xmlTteePatse0 、xmlIntetnalTreePatse0 、xmlNativeTree-Patse0 ， 还 有 xmlEventPatse0 。 正 如 其 名 字 
所 暗示 的 ， 它 们 在 XML 树 的 解析 方式 上 有 所 不 同 。xmlIhtefnal-TreePatse0 #exmlNativeTreePatse() 等同 于 xmlPatse0 。 此 外 ， 所 有 这 些 函 数 都 接近 等 
同 于 xmlTreePatse0 ， 除 了 后 者 自动 依赖 于 内 部 节点 (useIhtetnalNodes 参 数 设 为 TRUE) 。 


3.6 JSON 文 档 示 例 


在 本 万， 我 们 要 融 悉 数据 交换 标准 JSON 的 优点 。 这 个 首 字母 缩写 (发 音 是 “Jason”) 代表 Javascript 对 象 标 记 (JavaScript Object 
Notation) 。JSON 的 设计 和 XML 如 出 一 必 ， 两 者 通 弟 都 是 用 来 存储 和 交换 人 类 可 读 的 数据 。 很 多 流行 网 络 应 用 提供 的 接口 都 提供 JSON 格 式 的 
数据 。 


顾名思义 ，JSON 是 一 种 源 于 JavaScript 编 程 语言 的 数据 格式 。 不 过 ，JSON 本 身 是 一 种 独立 的 语言 ， 包 括 R 在 内 的 很 多 现 有 编程 语言 都 能 够 
解析 它 。JSON 已 经 变 成 用 于 提供 网 络 数据 的 最 流行 的 格式 之 一 。 因 此 ， 对 于 本 书 的 主题 ， 它 是 值得 学 习 的 。 我 们 再 从 一 个 合成 的 例子 开始 ， 然 
后 更 系统 化 地 了 解 它 的 语法 。 在 本 章 最 后 部 分 ， 我 们 会 学 习 JSON 语 法 以 及 如 何 用 R 来 访问 JSON 数 据 。 


图 3-9 的 JSON 代 码 存 放 了 电影 《 夺 宝 奇兵 》 (Indiana Jones) 前 三 集 的 一 些 基 本 信息 。 我 们 可 以 观察 到 JSON 比 XML 的 体 量 更 烃 。 数 据 是 
保存 在 键 值 对 (key/value pair) AY, 如 "name": “Raiders of the Lost Ark” ， 这 样 就 不 需要 终止 标签 了 。 不 同类 型 的 括号 (大 括号 和 方 
括号 ) 能 够 描述 层级 结构 并 区 分 无 序 和 有 序数 据 。 和 和 XML 一样 ，JSON 数 据 结构 在 嵌 套 方面 也 可 以 任意 复杂 化 。 除 了 语法 上 的 差别 ，JSON 和 
XML 一 样 直 观 易 懂 ， 尤 其 在 像 例子 中 的 代码 那样 有 缩 进 的 情况 下 ， 虽 然 对 于 合法 JSON 数 据 来 说 这 样 的 缩 进 并 不 是 必需 的 。 


1| {"indy movies" :| 

2 { 

3 "name" : "Raiders of the Lost Ark", 

一 "vear" : 1981, 

5 "actors" : { 

6 "Indiana Jones": "Harrison Ford", 

T "Dr. René Belloq": "Paul Freeman" 

8 bs 

9 "producers": ["Frank Marshall", "George Lucas", "Howard Kazanjian"], 
10 "budget" : 18000000, 

1] “academy award ve": true 

12 }, 

13 { 

14 "name" : "Indiana Jones and the Temple of Doom", 
15 "vear" : 1984, 

16 "actors" : { 

17 "Indiana Jones": "Harrison Ford", 

18 "Mola Ram": "Amish Puri" 

19 } ， 

20 "producers": ["Robert Watts"], 

21 "budget" : 28170000, 

22 "academy award ve": true 

23 Pe 

24 { 

25 "name" : "Indiana Jones and the Last Crusade", 
26 "vear" : 1989, 

27 "actors" : { 

28 "Indiana Jones": "Harrison Ford", 

29 "Walter Donovan": "Julian Glover" 

30 r 

31 "producers": ["Robert Watts", "George Lucas"], 
32 "budget" : 48000000, 

33 "academy award ve": false 

34 }] 


图 3-9 ” JSON 代码 范例 : BY PRATER 


3.7 ” JSON 语法 规则 
JSON 语 法 很 容易 学 习 。 我 们 只 需要 知道 : a) 如 何 使 用 括号 划分 数据 的 结构 ，b) 键 和 值 是 如 何 识别 和 隔 开 的 ; c) 有 哪些 数据 类 型 以 及 如 
何 使 用 它们 。 


括号 在 划分 文档 结构 的 时 候 起 了 天 键 作 用 。 正 如 我 们 在 图 3-9 的 学 例 数据 中 所 见 ， 整 个 文档 是 包 应 在 大 括号 里 的 。 这 是 因为 indy movies 是 
第 一 个 对 象 ， 它 包含 了 放 在 一 个 数组 (也 就 是 有 序 的 序列 ) 里 的 三 个 电影 记录 。 数 组 是 用 方 括 号 框 起 来 的 。 按 顺序 排列 的 每 个 电影 也 都 是 对 
R, PACHA SAK. MATS, SWAT: 


1) 大 括号 “{” 和 “}” 里 包含 对 象 。 对 象 的 用 法 很 像 XML 里 的 元 素 ， 能 包含 键 值 对 的 集合 、 其 他 对 象 或 数组 。 
2) 方 括号 “[” 和 “]” 里 包含 数组 。 一 个 数组 就 是 一 个 有 序 的 对 象 或 值 的 序列 。 
实际 数据 存放 在 键 值 对 中 。 键 和 值 的 规则 如 下 : 


1) 键 放 人 在 双 引 号 里 ， 数 据 则 只 有 字符 串 类 型 的 才能 放 在 双 引 号 里 。 


l "name" : "Indiana Jones and the Temple of Doom" 


to 


"year" : 1984 





2 ) fe F(A = = 55 iHe 
| "year? = 1951 
3) 键 值 对 用 逗号 分 开 。 


| | {"Indiana Jones": "Harrison Ford", 
2 "Dr. Rene Belloq": "Paul Freeman" } 





4) 一 个 数组 中 的 值 用 逗号 分 开 。 


l ["Frank Marshall", "George Lucas", "Howard Kazanjian"] 


JSON 键 值 对 的 值 部 分 支持 一 组 不 同 的 数据 类 型 。 如 表 3-4 所 列 。 


表 3-4 JSON 的 数据 类 型 


数据 类 型 a 义 
数学 整数 、 实 数 或 浮 点 数 (如 1.3E10 ) 
字符 串 空格 、0 个 或 多 个 Unicode FIF (ORT "A, 会 引入 某 些 转 义 序列 ) 
布尔 true 或 false 
Null null ， 未 知 的 值 
AF Ze 大 括号 里 的 内 容 
数组 方 插 号 里 的 有 顺序 内 容 


JSON 的 语法 就 是 这 么 多 了 。['] 从 XML 用 户 的 角度 来 说 ， 要 注意 JSON 不 能 做 到 的 事情 有 : 不 能 添加 注释 ; 不 能 区 分 缺失 的 值 和 空 值 ， 没有 
命名 空间 也 没有 XML 的 DTD 那 样 的 内 部 校 验 语法 。 但 是 这 从 绝对 意义 上 说 并 不 会 让 JSON 逊 色 于 XML。 它 们 只 是 基于 不 同 的 概念 而 已 。JSON 并 
不 是 一 种 标记 语言 ， 甚 至 连 文档 格式 都 不 算 。 它 被 设想 为 无 版 本 的 一 一 世界 上 没有 JSON 1.0 这 种 东西 一 一 也 不 用 指望 它 的 语法 有 什么 变化 。 它 
只 是 一 种 数据 交换 标准 ， 相 当 通用 ， 很 多 语言 都 能 毫 不 费力 地 解析 它 。 


里 然 在 JSON 数 据 里 面 没有 太 多 可 强调 的 东西 ， 但 是 有 一 些 工 具 可 以 辅助 人 类 读者 访问 JSJON 文 档 。 
在 http://jsonformatter.curiousconcept.com/ 里 的 JSON Formatter (格式 化 工具 ) &Validator ( 校 验 工 具 ) 残 是 网 络 上 的 很 多 工具 之 一 ， 这 
些 工 具 能 给 输入 的 JSON 数 据 自动 产生 缩 进 。 这 样 能 让 JSON 数 据 更 容易 阅读 ， 因 为 JSON 数 据 经 常 是 以 无 缩 进 无 换行 的 形式 出 现 的 。 这 个 工具 还 
能 帮助 检查 数据 中 的 bug。 如 果 你 需要 把 XML 转换 成 JSJON 数 据 ， 可 以 考虑 http://www.freeformatter.com/xml-to-json-converter.htm| 或 类 
似 的 工具 。 不 过 ， 这 样 的 转换 并 不 是 同 构 的 ， 需 要 设 定 一 些 规则 来 处 理 属性 和 命名 空间 等 。 

在 XML 已 经 提供 了 流行 的 数据 交换 格式 的 情况 下 ， 为 什么 JSJON 对 于 网 络 还 是 那么 重要 呢 ? 首先 ， 有 一 些 撤 术 特 点 让 JSON 比 XML 更 优先 。 
总 体 而 言 它 更 加 轻 量 级 ， 这 归功 于 它 更 简洁 的 语法 ， 以 及 它 只 允许 有 限 的 数据 类 型 集合 ， 这 个 集合 能 兼容 很 多 一 一 如 果 不 是 大 部 分 一 一 已 有 的 
编程 语言 。 天 于 兼容 性 ，JSON 有 另 一 个 关键 特 性 : 我 们 在 本 书 只 会 讲解 基本 的 JavaScript 知 识 (参见 第 6 章 ) ， 而 对 于 创建 动态 内 容 及 用 户 和 


浏览 器 之 间 的 交互 ，JavaScript 在 互联 网 领域 是 主流 的 技术 。JSON 则 是 从 根本 上 和 JavaScript 兼 容 的 ， 可 以 直接 被 解析 为 JavaScript 对 象 。 从 实 
用 角度 看 ，JSON 狗 似 已 经 成 为 了 最 广泛 使 用 的 网 络 接 口 数 据 交 换 格 式 ; Twitter、YouTube 还 有 很 多 或 大 或 小 的 Web 服 务 已 经 开始 使 用 纯 
JSON 接 口 了 。 


[1 这 里 有 一 些 字 符 编码 的 细节 问题 我 们 没有 深究 。 如 果 你 想 更 深入 一 些 细节 ， 在 http://www.json.org/ 有 更 详细 的 信息 。 


3.8 ”JSON 和 IR 的 实践 


R 有 一 套 处 理 XML 类 型 数据 的 标准 工具 集 一 一 XML 组 件 ， 而 能 够 导入 、 导 出 和 处 理 JSON 数 据 的 组 件 有 好 几 个 。 其 中 ， 第 一 个 发 布 的 组 件 是 
rjson (Couture-Beil 2013) ， 它 在 一 些 基 于 R 的 接口 包 里 还 在 使 用 。 不 过 ， 当 前 更 加 完善 的 一 个 组 件 是 RJSONIO (Temple Lang 2013b) , 
我 们 在 本 节 会 用 到 它 。 最 后 ， 我 们 还 会 讨论 最 近 发 布 的 组 件 jsonlite (Ooms and Temple Lang 2014) ， 它 是 在 RJSONIO 的 基础 上 构建 的 ， 改 
善 了 R 对 象 和 JSON 字 符 串 之 间 的 映射 。 


我 们 的 讨论 从 查看 RJSONIO 组 件 开始 。 在 它 的 当前 版 本 (1.0.3) 里 ,组 件 提供 了 24 个 立 数 ， 大 部 分 通常 不 会 直接 调用 。 现 在 我 们 回头 来 看 
一 下 实际 例子 ， 融 是 在 indy.json 文 件 里 的 数据 。 通 过 调用 isValidJ3ON () 尔 数 ,我 们 先 来 检查 一 下 文档 是 否 包 含 了 合法 的 JSON 数 据 : 


R> isValidJSON ("indy.json") 
[1] TRUE 


看 起 来 好 像 是 这 么 回 事 。 访 组件 的 两 个 核心 销 数 分 别 是 fromJSON () 和 toJSON () . fromJSON () 读 取 JSON 格 式 的 内 容 并 将 其 转换 
为 R 对 象 ， 而 toJSON () 则 恰恰 相反 : 


R> indy <- fromJSON (content = "indy.json") 


content 是 这 个 函数 的 主要 参数 。 在 我 们 的 例子 里 ，indy.json 是 一 个 在 工作 目录 中 的 文件 ， 但 它 也 可 以 是 通过 getURL () 函数 从 网 络 上 获 
取 或 者 用 readLines () 函数 导入 的 一 个 字符 串 。fromJSON () 水 数 提 供 了 其 他 几 个 有 用 的 参数 ， 并 且 由 于 该 组 件 有 精心 的 维护 ， 其 文档 (在 
R 控 制 台 通 过 ? fromJSON 路 径 访 问 ) 是 很 值得 一 读 的 。 一 个 非常 有 用 的 参数 是 simplify， 它 负责 控制 函数 是 否 党 试 把 相同 元 素 合 并 成 向 量 。 如 
果 不 合并 ， 每 个 元 素 就 仍然 是 单独 的 列表 元 素 。nullValue 参 数 用 于 描述 如 何 处 理 JSON 的 空 值 (null) 。 总 体 而 言 ，JSON 的 数据 类 型 (参见 表 
3-4) 和 R 的 数据 类 型 (小 数 、 整 数 、 字 符 、 逻 辑 ) 匹配 得 很 好 。 不 过 ， 空 值 在 R 里 有 所 不 同 。NULL 用 来 表示 空 对 象 ，NA 用 来 表示 缺失 的 值 。 
因此 ，nullValue 参 数 有 助 于 说 明 如 何 处 理 这 种 情况 ， 例 如 ， 把 它们 转化 为 NA。 下 面 的 函数 会 把 JJON 数 据 结 构 映 射 为 一 个 R 的 列表 对 象 : 


R> class (indy) 
LL tae 


从 现在 开始 ， 我 们 可 以 用 标准 的 R 风 格 来 处 理 数据 了 ， 也 融 是 说 ， 对 列表 进行 分 解 或 分 组 ， 或 把 它 (或 它 的 几 部 分 ) 强制 转化 为 向 量 、 数 据 
框 或 其 他 结构 。 我 们 已 经 注意 到 ， 当 我 们 面 对 真 实数 据 的 时 候 ， 一 些 狐 似 强大 的 函数 ， 如 xmlToDataFrame () ， 其 作用 可 能 是 有 限 的 。 数 据 
框 在 表示 简单 的 变量 一 一 值 结构 时 是 有 用 的 ， 但 用 于 表示 高 度 层级 化 的 数据 时 丈 会 变 得 非常 复杂 。 相 比 之 下 ，JSON 和 XML 可 以 表示 复杂 得 多 
的 数据 结构 。 当 JSON 或 XML 数 据 加 载 到 R 中 的 时 候 ， 用 尸 经 党 要 决定 哪些 信息 子 集 是 必要 的 并 需要 插入 数据 框 中 的 。 因 此 ， 对 于 从 JSON/XML 
到 R 的 数据 格式 转换 工作 ， 不 可 能 有 什么 现成 的 通用 函数 。 我 们 只 能 根据 实际 情况 来 创建 子 集 的 数据 转换 工具 。 在 本 书 的 例子 里 ， 我 们 会 需要 滨 
试 把 前 面 的 列表 映射 到 一 个 数据 框 ， 里 面包 括 3 个 数据 记录 和 几 个 变量 。 这 里 的 问题 在 于 ，actors 和 producers 有 好 几 个 值 。 有 一 个 办 法 是 逐个 
变量 提取 信息 ， 最 后 再 把 它们 合并 a 到 一 起 。 这 种 方法 如 下 所 示 : 


R> library (stringr) 
R> indy.vec <- unlist(indy, recursive = TRUE, use.names = TRUE) 
R> indy.vec[str detect (names(indy.vec), "name") ] 
indy movies.name 
"Raiders of the Lost Ark" 
indy movies.name 
"Indiana Jones and the Temple of Doom" 
indy movies.name 
"Indiana Jones and the Last Crusade" 


这 个 方法 首先 把 复杂 的 列表 结构 扁平 化 ， 变 成 一 个 向 量 。recursive 参 数 确保 列表 中 的 所 有 元 素 都 被 处 理 到 。 通 过 设置 use.names 参 数 为 
TRUE， 所 有 的 键 (key) 名 在 扁平 化 后 的 向 量 里 都 是 保留 的 ， 所 以 我 们 可 以 用 一 个 简单 的 正则 表达 式 和 stringr 组 件 (参见 第 8 章 ) 的 
str_detect () 函数 ， 通 过 name 来 找到 所 有 的 原始 键 值 对 。 这 种 方法 也 有 其 缺点 。 首 先 ， 所 有 列表 元 素 被 强制 转化 为 同一 种 模式 ， 大 部 分 情 : 
下 产生 的 是 字符 向 量 。 这 对 于 name 变 量 是 有 用 的 ， 但 对 于 years 变 量 融 不 那么 合适 了 。 另 外 ， 在 需要 提取 很 多 变量 的 情况 下 ， 这 种 分 步骤 的 方 
法 就 比较 烦琐 。 稍 微 好 一 点 的 办 法 是 用 sapply () 函数 ， 把 [[ 操 作 符 和 变量 名 作为 参数 用 来 给 元 素 分 组 ， 相 当 于 indy[[1]][[1]][[name']]、 
indy[[1T][[2][[name]]， 以 此 类 推 : 


R> sapply(indy[[1]], "[[", "year") 
[1] 1981 1984 1989 


这 种 方法 相对 于 第 一 种 方法 的 优点 在 于 数据 类 型 得 以 保留 。 最 后 ， 要 提取 所 有 变量 并 直接 把 它们 组 织 到 一 个 数据 框 里 ， 我 们 必须 考虑 采样 
数据 中 某 些 变量 不 存在 或 在 不 同 记录 中 结构 不 同 的 情况 。 例 如 ， 制 片 人 (producers) 的 数量 有 不 同 。 进 行 如 下 的 转换 : 


R> library (plyr) 

R> indy.unlist <- sapply(indy[[1]], unlist) 

R> indy.df <- do.call("rbind.fill", lapply(lapply(indy.unlist, t), 
data.frame, stringsAsFactors = FALSE) ) 


我 们 首先 把 列表 中 的 元 素 扁平 化 。 第 二 个 命令 束 复 杂 一 些 。 首 先 ， 把 每 个 列表 元 素 变 形 ， 把 它们 转化 为 数据 框 ， 册 利用 plyr 组 件 里 的 
rbind.fill () 函数 把 这 些 数据 框 组 合 为 单个 数据 框 ， 在 此 过 程 中 要 处 理 某 些 变量 在 某 些 数据 框 内 不 存在 的 情况 。 从 结果 可 以 看 出 ， 我 们 还 需 
继续 做 一 些 数据 整理 的 工作 。 例 如 ， 注 意 制 请 人 (producer) 变量 分 裂 成 了 好 几 个 : 


R> names (indy.df) 


[1] "name" "year" 

[3] "actors.Indiana.Jones" "actors.Dr..René.Bellog" 
[5] "producers" "producers2" 

[7] "producers3" "budget" 

[9] "academy award ve" "actors .Mola.Ram" 

[11] "producers" "actors.Walter.Donovan" 


很 明显 ， 导 入 JSON 数 据 或 对 一 般 列 表 进 行 处 理会 是 一 件 令 人 头疼 的 事 。 即 使 数据 结构 比 上 面 的 例子 简单 一 些 ， 我 们 还 是 需要 调用 apply 一 
类 的 函数 。 参 考 下 面 最 后 一 个 J3JON 导 入 的 例子 ， 它 来 目 一 个 简单 的 普通 数据 集 : 


"name":"van Pelt, Lucy", 
"sex":"female", 
wage" :32 


"name":"Peppermint, Patty", 
"sex":"female", 


"age":null 


"name":"Brown, Charlie", 
"sex":"male", 
oe ae | 





我 们 可 以 通过 下 面 的 表达 式 把 数据 转化 为 普通 的 数据 框 : 


R> peanuts.json <- fromJSON("peanuts.json", nullValue = NA, 
simplify = FALSE ) 

R> peanuts.df <- do.call("rbind", lapply(peanuts.json, data.frame, 
stringsAsFactors = FALSE) ) 


我 们 通过 fromJSON 函 数 解析 这 段 JJON 数 据 ， 并 告诉 解析 器 把 null 值 设置 为 NA。 为 了 在 所 有 元 素 里 保持 列表 结构 ， 我 们 还 设置 了 simplify 
参数 为 FALSE。 否 则 ， 解 析 器 会 把 第 二 个 记录 转换 为 一 个 字符 向 量 ， 这 样 data.frame () 这 个 apply 函 数 就 无 效 了 。 我 们 使 用 lapply () 函数 把 
得 到 的 列表 转化 为 数据 框 ， 并 通过 stringsAsFactors=FALSE 参 数 让 字符 串 保 持 不 变 。 最 后 ， 我 们 用 一 个 对 rbind () 的 do.call O 调用 把 得 到 
的 数据 框 组 合 起 来 。 结 果 看 起 来 是 可 以 接受 的 : 


R> PeanutsSs .dt 


name sex age 
1 van Pelt, Lucy female 32 
2 Peppermint, Patty female NA 
3 Brown, Charlie male 27 


如 果 要 进行 反 向 转换 ， 也 就 是 从 R 到 JSON 数 据 ， 我 们 需要 的 函数 是 toJSON () : 


R> peanuts.json <- toJSON(peanuts.df, pretty = TRUE) 
R> file.output <- file("peanuts out.json") 

R> writeLines(peanuts.json, file.output) 

R> close(file.output) 


把 JSON 数 据 转 换 为 R 对 象 并 不 总 能 用 现成 的 函数 完成 ， 而 需要 对 产生 的 对 象 进 行 一 些 后 续 处 理 ， 但 最 近 面 世 的 jsonlite 组 件 为 这 两 套数 据 提 
供 了 更 好 的 一 致 性 。 它 是 在 RJSONIO 组 件 的 基础 上 创建 的 ， 也 提供 了 fromJSON () 和 toJSON () 这 两 个 主 函 数 ， 但 是 实现 了 不 同 的 映射 模式 
(参见 Ooms 2013) 。 它 有 一 套 规 则 让 来 自 外 部 源 (如 某 个 接口 ) 的 数据 能 够 以 保证 一 致 性 的 方式 进行 转换 。 某 些 关 于 数组 从 JSON 转 化 到 R 的 
重要 惯例 如 下 : 


“ 如 果 数 组 里 有 至 少 一 个 值 是 字符 型 的 ， 整 个 数组 都 会 编码 为 字符 数据 。 
° null 值 编码 为 NA。 


:ttue 和 false 逻 辑 值 在 数值 向 量 中 分 别 编码 为 1 和 0， 在 字符 和 逻辑 向 量 中 分 别 编码 为 TRUE 和 FALSE。 


还 有 一 些 惯例 是 天 于 向 量 、 和 矩 孟 、 列 表 和 数据 框 的 转换 的 。 它 们 的 文档 见 参考 文献 中 的 Ooms (2013) 。 对 我 们 的 目标 来 说 ， 天 于 JSON 到 
R 的 转换 规则 最 为 重要 ， 因 为 这 是 常规 数据 抓 取 工 作 流 程 的 一 部 分 。 请 参考 下面 这 一 套 从 JSON 数 据 到 R 对 象 的 转换 例子 ， 看 一 下 前 面 提 到 的 惯 
例 是 如 何 实际 应 用 的 : 


R> library (jsonlite) 

R> x <- '[1, 2, true, false]' 
R> fromJSON (x) 

iat it 21.8 


R> x <- '["foo", true, false] ' 

R> fromJSON (x) 

[1] "foo" "TRUE" "FALSE" 

R> x <- '[1, "foo", null, false]' 
R> fromJSON (x) 

[1] "1" "Foo" NA "FALSE" 


jsonlite 的 一 致 性 映射 规则 不 仅 能 确保 数据 在 向 量 层 次 被 充分 转换 ， 而 且 让 JSON 数 据 映 射 为 R 数 据 框 的 工作 更 加 轻松 。 再 利用 jsonlite 处 理 
一 下 前 面 的 普通 人 数据 的 例子 ， 你 会 发 现 JSON 数 据 马 上 可 以 很 方便 地 映射 为 预期 的 data.frame 类 型 的 R 对 象 : 


R> (peanuts.json <- fromJSON("peanuts.json") ) 


name sex age 
1 van Pelt, Lucy female 32 
2 Peppermint, Patty female NA 
3 Brown, Charlie male 27 


在 《村 宝 奇 兵 》 的 例子 里 ，Indy 这 个 JSON 数 据 也 会 被 映射 为 一 个 列表 。 不 过 ， 列 表 中 唯一 的 元 素 是 我 们 所 需 内 容 构成 的 数据 框 。 我 们 可 以 
直接 把 列表 中 的 数据 提取 出 来 ， 用 于 访问 其 中 的 变量 : 


R> (indy <- fromJSON ("indy.json") ) 
S'indy movies' 
name year actors.Indiana Jones 


1 Raiders of the Lost Ark 1981 Harrison Ford 
2 Indiana Jones and the Temple of Doom 1984 Harrison Ford 
3 Indiana Jones and the Last Crusade 1989 Harrison Ford 
actors.Dr. René Bellog actors.Mola Ram actors.Walter Donovan 
a Paul Freeman <NA> <NA> 
<NA> Amish Puri <NA> 
3 <NA> <NA> Julian Glover 
producers budget academy award ve 
1 Frank Marshall, George Lucas, Howard Kazanjian 18000000 TRUE 
2 Robert Watts 28170000 TRUE 
T Robert Watts, George Lucas 48000000 FALSE 


R> indy.df <- indy$'indy movies' 

R> indy.dfSname 

[1] "Raiders of the Lost Ark" 

[2] "Indiana Jones and the Temple of Doom" 
[3] "Indiana Jones and the Last Crusade" 


简 而 言 之 ， 只 要 是 RJSONIO 返 回 了 一 个 列表 而 你 需要 数据 框 的 情况 下 ，jsonlite 在 适当 条 件 下 都 能 够 从 JSON 数 据 结构 创建 表格 数据 ， 因 为 
它 的 映射 模式 明确 了 表格 数据 存放 在 R 里 的 (基于 列 的 ) 方式 和 在 JSON (以 及 很 多 其 他 格式 、 语 言 或 数据 库 ) 里 的 (基于 行 的 ) 方式 (参见 
Ooms 2013) 。 


当然 ，jsonlite 的 功能 并 不 能 解决 所 有 JSON 到 R 转 化 的 问题 。 不 过 ， 在 jsonlite 里 实现 的 规则 设 定 有 助 于 更 一 致 地 把 JSON 数 据 导 入 R。 因 此 
我 们 推荐 在 处 理 JSON 数 据 的 时 候 把 该 组 件 作 为 标准 工具 ， 尽 管 它 还 处 于 早期 版 本 。 


小 结 


XML 和 JSON 都 是 非常 重要 的 网 络 数 据 交 换 标准 ， 因 此 会 在 本 书 的 课程 中 多 次 出 现 ( 例 如， 在 第 4 草 和 第 14 章 的 Twitter 案 例 讨 论 里 ) 。 了 解 
如 何 处 理 这 两 种 数据 类 型 对 网 络 数据 采集 的 任务 是 大 有 帮助 的 。 


我 们 已 经 看 到 XML 还 可 以 作为 很 多 其 他 格式 的 基础 标准 ， 如 GPX、KML、RSS、SVG、XHTML 等 。 我 们 在 网 上 遇 到 这 些 类 型 的 数据 时 ， 也 
能 够 用 R 把 它们 导入 和 处 理 。JSON 是 网 络 数据 交换 领域 一 种 越 来 越 流 行 的 XML 蔡 代 格 式 ， 特 别 是 在 涉及 网 络 服务 /网 络 接口 的 情况 下 ， 它 的 使 用 
更 为 普遍 。JSON 脱 胎 于 JavaScript， 可 以 被 包括 R 在 内 的 很 多 语言 解析 。 


延伸 阅读 


相对 本 书 对 XML 和 JSON 的 基本 介绍 ， 有 很 多 教材 有 更 深入 的 讲解 。 如 果 你 喜欢 网 络 相关 的 语言 并 打算 深入 Web 开 友人 岛 域 , 你 可 以 看 看 
Harold 和 Means (2004) 写 的 这 本 《XML in a Nutshell) , 或 者 Ray (2003) 的 相关 文献 。 不 过 ， 对 于 本 书 讲解 的 网 络 抓 取 工作 来 说 ， 更 高 
深 的 XML 知 识 并 不 是 必要 的 。 


如 果 你 想 更 深入 JSON 和 JavaScript，JSON 标 准 制 定 者 Douglas Crockford (2008) 写 的 这 本 《Javascript: The Good Parts》 会 是 一 本 
不 错 的 入 门 书 。 如 需 快速 了 解 它 的 全 有 狐 ， 我 们 强烈 推荐 访问 http://www.json.org/ 这 个 超 棒 的 网 站 。 


V] 
阅 


1 描述 XML 和 HTML 之 间 的 关系 。 

2. 把 XM1 数 据 导入 R 有 几 种 可 行 的 方法 ? 每 种 方法 的 优点 和 缺点 分 别 是 什么 ? 
3. 在 XML 风格 的 文档 中 ， 命 名 空间 的 用 途 是 什么 ? 
4JSON 语 法 的 主要 元 素 有 哪些 ? 

5 编写 你 能 想 出 来 最 小 的 结构 良好 的 XML 文档 。 

6 .为 什么 XML 里 的 & 符 号 需要 用 一 个 转 义 序列 表示 ? 


7. 看 一 下 3.2.2 世 的 非法 XML 代码 片段 。 里 面 的 家 庭 结构 可 以 如 何在 一 个 合法 XML 文档 中 表示 ， 从 而 让 Jonathan 能 具备 孩子 和 父亲 的 双重 身 
份 ? 


8. 到 你 存放 黑 胺 唱片 、CD、DVD 或 蓝光 碟 的 架子 上 随机 找 出 三 张 盘 。 创 建 一 个 XML 文 档 ， 里 面 保 存 有 关 你 选取 的 这 几 张 盘 的 有 用 信息 。 
9. 自 学 Election Markup Language (EML) 

(a) 搞 清楚 EML 的 用 途 。 

(b) 查找 该 语言 的 当前 规格 说 明 ， 明 确 关 键 概 仿 。 

(c) 查找 一 个 真实 的 EML 文 档 ， 把 它 加 载 到 R 里 并 把 其 中 一 些 部 分 转化 为 本 地 数据 结构 。 

10. 运 用 SVG 文 件 。 


(a) 处 理 ricon.svg 文 件 ， 给 里 面 的 图 标 加 上 一 个 黑 框 。 重 新 定义 图 像 的 颜色 、 大 小 和 字体 。 


(b) 把 RSS 图 标 重 建 为 SVG 文 档 。 


11. 找 出 下 面 JSON 片 段 的 格式 错误 。[1 


"text": "@slowpoketweeter @yaaawnl123: Just saw a cat 
the road. Awesome! #YOLO", 
"truncated": false, 
"Favorited": "true", 
"Source": "<a href= \"http://twitter.com/ \" rel= \" 
nofollow \"s>Twitter for iPhone</a>", 
"id str": "61723550048377463", 
"user mentions": ["slowpoketweeter" "yaaawnl123"], 
"screen name": "SlowpokeTweeter", 
nid", 
工 ELWEELC Count: 4, 
"geo": NULL, 
"created at": "Sun Apr 03 23:48:36 +0000 2011"; 
user: f 
"statuses count": 3,511, 
"profile background color": "CODEED", 
"followers count": "48", 
"description": "watcha doin in my waters?", 
"screen name": "OlLdGREG85", 


"time zone": "Hawaii", 
1 lang' = Wan" P 

"friends count": 81, 
"geo enabled": false, 


} 





12. 将 图 3-1 中 的 《James Bond》 示 例 XML 转 化 为 合法 的 JSON.。 

13. 将 图 3-9 中 的 《村 宝 奇 兵 》 示 例 数据 转化 为 合法 的 XML。 

14. 把 indyjson 文 件 导 入 R 并 提取 所 有 budget 键 的 值 。 

15.XML 文 件 potus.xml (在 本 书 配套 材料 中 ) 包含 美国 各 届 辟 统 的 个 人 传记 。 


(a) 使 用 DOM 风 格 的 XML 解 析 器 把 该 文档 解析 到 名 为 potus 的 R 对 象 中 。 检 查 源 代码 。 <occupation> 节 点 在 字符 串 结 尾 含有 多 余 的 空 
格 。 找 到 合适 的 参数 ， 能 让 这 些 多 余 的 空格 在 解析 阶段 被 去 掉 。 


(b) 该 XML 文件 包含 了 <salary> 节 点 。 在 解析 文件 的 过 程 中 丢弃 它们 。 通 过 使 用 定制 的 处 理 器 函数 和 字符 串 处 理 函数 (参见 8.2 节 ) 去 挤 


<occupation> 节 点 中 的 多 余 空格 。 


(c) 编写 一 个 处 理 器 用 于 提取 <hometown> 节 扣 的 值 ， 并 将 其 传递 给 DOM 风 格 的 解析 器 。 利 用 一 个 事件 驱动 的 解析 器 重复 上 述 过 程 并 检 
BR. 


[1] 本 例 是 从 Twitter 流 接口 返回 内 容 的 缩减 片段 。 


第 4 草 XPath 


第 2 章 和 第 3 章 介绍 并 讲解 了 HTMLVXML 文 档 如 何 利用 标记 来 存放 信息 ， 以 及 在 用 浏览 器 打开 它 时 产生 网 页 的 视觉 表现 。 我 们 也 解释 了 如 何 
使 用 类 似 R 的 脚本 语言 通过 专用 的 解析 阔 数 (参见 2.4 节 和 3.5.1 节 ) 把 网 页 的 源 代码 转换 为 称 为 DOM 的 可 修改 数据 对 象 。 在 一 个 典型 的 数据 分 析 
工作 流 中 ， 这 些 步 骤 很 重要 ， 但 对 于 从 网 页 收集 结构 良好 且 整 洁 的 数据 集 的 过 程 来 说 ， 它 们 还 只 是 中 间 步 骤 。 在 我 们 能 充分 利用 网 络 ， 把 它 当 
作 几 乎 无 穷 无 尽 的 数据 源 之 前 ， 对 于 已 经 识别 并 下 载 的 相关 网 页 ， 还 需要 一 系 刘 的 过 滤 和 提取 步骤 。 这 些 步 又 的 主要 作用 ， 是 把 用 标记 语言 进 
行 格 式 编码 的 信息 重新 组 织 ， 变 成 适合 用 统计 学 软件 进行 后 续 处 理 和 分 析 的 格式 。 起 初 ， 这 项 任务 包括 了 解 我 们 感 兴趣 的 信息 ， 并 在 特定 文档 
中 识别 这 些 信息 的 位 置 。 一 旦 我 们 了 解 了 这 尝 情况 ， 融 可 以 订 制 一 个 针对 该 文档 的 查询 ， 获 取 所 需 的 信息 。 此 外 ， 还 有 一 些 数据 重 构 和 腊 单 处 
理 的 工作 往往 也 是 必要 的 ， 它 们 会 把 提取 到 的 数据 构造 为 便于 后 续 分 析 的 格式 。 


本 章 会 市 你 逐个 经 历 这 些 步 又， 帮助 你 获得 对 类 似 HTMLVXML 文 档 的 树 型 数据 结构 进行 查询 的 直观 印象 。 我 们 会 看 到 ， 通 过 使 用 XML 
Path 语 言 (简称 XPath， 它 是 一 个 非常 流行 的 网 络 拷 术 ， 也 是 W3C 标 准 之 一 ， 参 见 W3C 1999) 里 简洁 而 强大 的 path 语 句 ,， 访问 HTML/XML 文 
档 当 中 的 特定 信息 是 人 简 蛙 直接 的 。 在 介绍 XPath 的 基本 远 辑 之 后 ， 我 们 会 结合 一 个 实际 文档 的 应 用 ， 讲 解 如 何 利 用 谓语 、 操 作 符 和 定制 提取 泛 
数 ， 以 充分 友 挥 其 词汇 表 的 能 量 。 然 后 ， 我 们 会 探讨 如 何 使 用 命名 空间 属性 (4.3.2 节 ) 。 本 章 的 结尾 是 一 些 有 用 工具 的 建议 (4.3.3 节 ) ， 并 在 
更 高 层次 讨论 一 些 关 于 构建 高 效 稳定 的 HTML/XML 文 档 的 提取 代码 的 常见 问题 (4.3.3 节 ) 。 


4.1 XPath: 一 种 网 页 查询 语言 


XPath 是 一 种 查询 语言 ， 用 于 在 HTML/XML 文 档 中 定位 和 提取 一 些 片段 。 对 XPath 最 准确 的 分 类 是 一 种 特定 域 语 言 (Domain-Specific 
Language, DSL) ， 这 表明 它 的 应 用 领域 相对 比较 狭 窗 一 一 它 是 专门 用 于 从 标记 语言 文档 (类 似 于 HTML 或 XML， 或 类 似 于 SVG/RSS 之 类 的 变 
体 ， 参 见 3.4.3 节 ) 选取 信息 的 非常 有 用 的 工具 。XPath 也 是 一 个 W3C 标 准 ， 这 意味 着 这 种 语言 会 得 到 持续 的 维护 和 在 现代 网 络 应 用 中 的 广泛 使 
用 。 在 当前 使 用 的 两 个 XPath 版 本 中 ， 本 书 选 择 的 是 XPath 1.0， 因 为 它 提供 了 足够 强大 的 语句 ， 在 R 的 XML 组 件 中 也 已 经 实现 了 。 


作为 一 个 程序 化 的 实用 例子 ， 我 们 再 次 用 到 fortunes.html: 一 个 包含 了 几 条 关于 R 的 名 言 的 简单 HTML 文 件 。 首 先 ， 运 用 XPath 之 前 有 个 必 
要 的 步 又， 就 是 解析 文档 并 把 它 的 内 容 存 放 在 R 会 话 的 工作 区 ， 因 为 XPath 只 能 处 理 文档 的 DOM 表 现形 式 ， 而 不 能 直接 应 用 到 原始 代码 中 。 我 
们 先 加 载 XML 组 件 ， 并 利用 htmlParse () 把 文件 解析 到 parsed_doc 对 象 中 : 


R> library (XML) 
R> parsed doc <- htmlParse(file = "fortunes.html") 


现在 ， 该 文档 可 以 在 R 的 工作 区 使 用 了 ， 我 们 可 以 对 结果 对 象 调用 XML 组 件 的 print () 方法 来 查看 它 的 内 容 : 


R> print (parsed doc) 

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN"> 

<html> 

<head><title>Collected R wisdoms</title></head> 

<body> 

<div id="R Inventor" lang="english" date="June/2003"> 
<hi>Robert Gentleman</hl1> 
<p><i>'What we have is nice, but we need something very different'</i></p> 
<p><b>Source: </b>Statistical Computing 2003, Reisensburg</p> 

</div> 


<div lang="english" date="October/2011"> 

<hli>Rolf Turner</h1> 

<p><i>'R is wonderful, but it cannot work magic'</i> <br><emph>sanswering a 
request for automatic generation of 'data from a known mean and 95% CI' 
</emph></p> 

<p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help"> 
R-help</a></p> 
</div> 


<address> 

<a href="http://www.r-datacollection.com"><i>The book homepage</i> 
</a><a></a> 

</address> 


</body> 
</html> 


在 进行 处 理 之 前 ， 我 们 要 重申 第 2 章 的 一 个 关键 思想 ， 它 有 利于 理解 XPath 语句 的 基本 逻辑 。HTMLVXML 文 档 使 用 标签 来 标记 信息 ， 标 签 的 
从 套 天 系 摘 述 了 一 个 层次 型 的 秩序 。 


一 种 描述 这 种 标签 的 层次 型 秩序 的 方式 是 如 图 4-1 所 示 的 树 。 在 这 个 树 里 ， 边 代表 一 个 较 低层 节点 府 套 在 一 个 较 高 层 节 扎 之 内 的 关系 。 在 叶 
穿 本 章 的 内 容 里 ， 我 们 不 仅 会 引用 这 张 图 ， 也 会 采用 图 论语 言 描述 标签 在 文档 中 的 位 置 及 其 相互 天 系 。 因 此 ， 如 果 提 到 某 个 <div> 节 点 ， 我 们 
指 的 是 封装 在 该 div 标 签 内 的 所 有 信息 ， 也 束 是 包括 了 该 节点 的 值 、 它 的 整套 属性 和 属性 值 ， 以 及 它 的 子 节 点 。 当 使 用 “节点 集 ” 这 个 术语 时 ， 


我 们 指 的 是 符合 入 选 条 件 的 多 个 节 扣 。 


4.2 ”用 XPath 确 定 节 点 集 


4.2.1 XPath 查询 的 基本 结构 


我 们 提取 信息 的 工作 先 从 <i> 节 点 开始 ， 也 束 是 用 和 斜体 字 编 写 的 文本 ， 这 些 文 本 包含 了 实际 引用 的 句子 。 不 管 查看 HTML 代 码 还 是 图 4-1 的 
文档 树 ， 都 可 以 友 现 有 两 个 节点 符合 条 件 ， 而 它们 都 位 于 文档 的 最 底层 。 在 XPath 里 ,我 们 可 以 通过 构建 用 和 斜 柱 (/) 分 开 的 一 个 节点 序列 来 表 
达 这 种 层次 关系 。 这 称 为 层次 定位 机 制 (hierarchical addressing mechanism) ， 和 本 地 文件 系统 的 定位 路 径 是 相似 的 。 这 种 相似 性 并 非 偶 
然 ， 而 是 来 自 于 基础 文档 /文件 系统 中 类 似 的 层次 化 组 织 形式 。 正 如 在 一 个 本 地 硬盘 中 一 个 文件 夹 可 以 骨 套 在 其 他 文件 夹 内 部 ，DOM 也 会 把 
XML 文 档 当 作 一 个 书 点 树 ， 树 中 市 点 之 间 的 相互 家 僚 束 构 成 了 一 种 节操 层次 结构 。 


value: 
Collected... 


id: R-Inventor 


lang: english 
date: June/2003 


<address> 


href: https... 


<i> 


href: https... 


lang: english 


date: 
October/201 1 





<p> 


value: Robert value: value: Robert 
Gentleman Statistical... Turner 


value: R is... value: value: R-help 









value 
Source 


value: What 


value: 
answering... 


Source... href: http... 


We ... 





图 4-1 patsed_doc 对 象 的 一 个 树 型 视角 


对 于 HTML 文 件 ， 我 们 可 以 通过 说 明 抵 达 <i> 节 点 的 节点 顺序 来 描述 它 的 位 置 。 表 示 这 个 位 置 的 XPath 是 “/htmlbodydiwWPVi”。 这 个 语 
FA <p> PALARI <i> 
节点 。 要 运用 这 个 XPath， 我 们 可 以 调用 XML 组 件 的 xpathSsApply () 函数 。 简 而 言 之 ，xpathSApply () 让 我 们 能 在 一 步 操作 里 执行 两 个 任 
务 。 首 先 ， 该 国 数 返回 匹配 XPath 表达 式 的 整个 节点 。 其 次 ， 如 果 有 必要 ， 我 们 可 以 把 一 个 提取 阔 数 作为 参数 传递 给 它 ， 从 而 获取 该 节点 的 
值 、 属 性 或 属性 值 。 中 在 我 们 的 例子 里 ， 设 定 xpathSApply() 的 第 一 个 参数 doc 为 待 解析 的 文档 ， 第 二 个 参数 path 为 我 们 要 使 用 的 XPath 表 达 
式 : 


R> xpathSApply (doc 
EELIS 


<i>'What we have is nice, but we need something very different'</i> 


parsed doc, path = "/html/body/div/p/i") 


[ [2] ] 


<i>'R is wonderful, but it cannot work magic'</i> 


在 上 例 中 ， 指 定 的 路 径 对 于 两 个 <i> 节 点 都 是 符合 的 。 因 此 ， 如 果 XPath 查 询 条 件 符合 多 个 节点 的 路 径 ， 它 就 能 一 次 提取 出 多 个 节点 。 刚 才 
我 们 运用 的 路 径 称 为 绝对 路 径 。 绝 对 路 径 的 独特 之 处 在 于 ， 它 们 忆 是 从 根 证 点 出 友 来 搞 述 一 个 抵达 目标 节点 的 连续 节点 序列 。 作 为 蔡 代 万 式 ,， 
我 们 也 可 以 构造 更 短 的 相对 路 径 抵达 目标 节点 。 相 对 路 径 能 允许 节点 之 间 的 “ 跳 转 ”， 可 以 用 双 和 斜 杠 (//) 来 指示 。 作 为 示例 ， 参 考 下 面 的 路 


42. 
任 : 


R> xpathSApply(parsed doc, "//body//p/i") 
[ [1] ] 


<i>'What we have is nice, but we need something very different'</i> 


LL21] 


<i>'R is wonderful, but it cannot work magic'</i> 


对 这 条 语句 的 理解 为 : 找到 文档 层次 结构 中 位 于 某 个 层次 的 <body> 节 点 : 不 一 定 非 要 是 根 节 点 ， 然 后 在 这 个 层次 结构 中 往 下 一 层 或 多 


层 ， 找 到 一 个 <p> 节 点 ， 它 后 面 紧 跟着 一 个 <i> 节 点 。 我 们 这 次 也 得 到 了 和 前 面 例 子 一 样 的 一 组 <i> 节 点 。 一 个 对 于 <i> 节 点 的 更 为 简洁 的 路 径 
如 下 所 示 : 


R> xpathSApply(parsed doc, "//p/i") 
GELLA 


<i>'What we have is nice, but we need something very different'</i> 


[[2]] 


<i>'R is wonderful, but it cannot work magic'</i> 


上 面 三 个 例子 有 助 于 强调 XPath 的 设计 思想 中 的 一 个 要 点 。 实 际 上 ， 折 述 同一 个 节点 集 始终 会 有 多 种 万 式 ， 通 过 不 同 的 XPath 语 句 来 进行 。 
那么 问题 是 ， 如 果 有 一 个 合法 的 相对 路 径 能 返回 相同 的 信息 ， 那 么 我 们 为 什么 还 要 构建 一 个 长 长 的 绝对 路 径 呢 ?xpathSApply() Thine 
个 文档 ， 并 解析 在 文档 树 里 的 任何 广度 和 深度 的 节点 跳 转 。 相 对 路 径 的 吸引 力 来 自 于 它们 的 简短 ， 但 在 某 些 情况 下 ， 优 先 使 用 绝对 路 径 也 是 有 
道理 的 。 相 对 路 径 语 句 会 导致 对 文档 树 进行 完全 退 历 ， 这 种 做 法 的 计算 开销 是 非常 大 的 ， 会 降低 查询 的 效率 。 对 于 本 书 中 涉及 的 小 型 HTML 文 
件 ， 计 算 效 率 还 不 是 问题 。 不 过 ， 当 涉及 更 大 规模 的 文件 或 对 多 个 文档 进行 数据 提取 操作 时 ， 代 码 执行 的 速度 束 会 面临 更 多 的 压力 。 因 此 ， 如 
果 速 度 对 于 你 的 代码 运行 是 个 问题 ， 那 么 建议 还 是 及 用 绝对 路 径 来 表达 节点 位 置 。 


除了 纯粹 的 路 径 逻 辑 ，XPath 还 允许 表达 式 中 加 入 具有 特殊 合 义 的 符号 。 这 些 符号 之 一 是 通配符 (*) 。 通 配 符 能 匹配 任何 (单个 的 ) 在 对 
应 位 置 具有 任意 名 字 的 节点 。 要 从 前 面 例子 的 HTML 文 件 返 回 所 有 <i> 世 点， 我 们 可 以 把 通配符 用 在 <div> 和 <i> 节 点 之 间 来 匹配 <p> 节 操 : 


R> xpathSApply(parsed doc, "/html/body/div/*/i") 
LELNI 


<i>'What we have is nice, but we need something very different'</i> 


[[2]] 


<i>'R is wonderful, but it cannot work magic'</i> 


我 们 还 会 反复 用 到 的 两 个 元 素 分 别 是 “.” 和 “http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15597/OEBPS/Text/..” 操 作 符 。 用 “.” 操 作 符 可 以 在 选 定 的 节点 集 里 选择 当前 节点 
(或 目 身 轴 ，self-axis) 。 诅 操作 符 人 在 使 用 谓语 时 偶尔 也 有 用 。 我 们 要 把 对 “.” 操 作 符 的 详细 讲解 推迟 到 4.2.3 节 ， 和 谓语 的 讨论 一 起 进行 。 
用 “http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15597/OEBPS/Text/..” 操 作 
答 可 以 选择 当前 节点 同上 一 级 的 古 上 各 。 这 样 如 果 我 们 希望 选择 <head> 书 点 ， 玖 可 以 先 定 位 它 的 子 节 点 <title>， 然 后 顺 着 层次 关系 向 上 一 级 : 


R> xpathSApply (parsed doc, "//title/..") 
[ [1] ] 


<head> 


<title>Collected R wisdoms</title> 
</head> 


最 后 ， 我 们 有 时 需要 一 次 性 进行 多 个 查询 ,提取 位 于 不 同 路 径 的 多 个 元 素 。 这 种 工作 主要 有 两 种 方法 。 第 一 种 方法 是 使 用 管道 操作 符 | 指 定 
多 个 路 径 ， 这 些 路 径 会 被 逐个 分 析 并 一 起 返回 。 例 如 ， 要 选择 <address> 和 <title> 节 点 ， 可 以 使 用 下 列 语句 : 


R> xpathSApply (parsed doc, "//address | //title") 
[ [1] ] 
<title>Collected R wisdoms</title> 
[ [2] ] 
<address> 
<a href="http://www.r-datacollectionbook.com"> 
<i>The book homepage</i> 
</a> 
<a/> 
</address> 


另 一 种 方法 是 把 XPath 查询 保存 在 一 个 向 量 里 ， 并 把 这 个 向 量 传递 给 xpathSApply () 。 这 里 首先 创建 一 个 名 为 twoQueries 的 向 量 ， 里 面 
的 元 素 分 别 代表 特定 的 XPath 查询 。 把 twoQueries 传 递 给 xpathSApply () ， 可 以 得 到 如 下 结果 : 


R> twoQueries <- c(address = "//address", title = "//title") 
R> xpathSApply (parsed doc, twoQueries) 

[ [1] ] 

<title>Collected R wisdoms</title> 


eae 
<address> 
<a href="http://www.r-datacollectionbook.com"> 
<i>The book homepage</i> 
</a> 
<a/> 
</address> 


42.2 PAKA 


到 目前 为 止 介绍 的 XPath 语 法 对 于 在 文档 中 选择 某 些 厂 点 是 足够 好 用 的 ， 但 在 数据 提取 工作 变 得 越 来 越 复杂 的 情况 下 ， 它 的 用 处 比较 有 
限 。 连 续 的 节点 序列 缺乏 表达 复杂 查询 条 件 的 能 力 ， 而 要 从 更 小 的 节点 分 组 里 单独 提取 出 特定 的 节点 ， 丈 需要 比较 强 的 表达 力 。 这 个 问题 可 以 
通过 我 们 曾经 用 于 识别 文档 中 <i> 证 点 的 查询 进行 很 好 的 阐述 。 假 设 我 们 想 要 找到 出 现在 第 二 个 区 段 元 素 <div> 内 的 <i> 忆 点 。 通 过 到 目前 为 止 
讲解 过 的 语法 ， 残 没 办 法 构造 出 一 个 路 径 ， 让 它 返 回 这 个 节点 ， 因 为 能 够 找到 该 节点 的 节点 序列 对 于 文档 第 一 个 区 段 元 素 里 的 <i> 节 点 也 是 同样 
有 效 的 。 


在 这 种 情况 下 ， 我 们 可 以 利用 XPath 的 能 力 友 所 文档 树 的 其 他 特性 。 其 中 一 个 特性 就 是 一 个 节点 对 应 文档 树 中 其 他 节点 的 相对 位 置 。 这 些 
节点 间 的 关系 如 图 4-1 所 示 。 大 部 分 节点 所 在 路 径 的 前 面 或 后 面 都 有 其 他 节点 ， 而 路 径 往往 是 唯一 的 ， 就 可 以 利用 它 来 对 节点 进行 区 分 。 类 似 于 
在 摘 述 树 形 结构 数据 格式 时 所 常用 的 方式 ， 我 们 采用 了 基于 家 族 关 系 (孩子 、 父 母 、 祖 父母 等 ) 的 标记 来 描述 节点 之 间 的 关系。 这 个 特性 让 分 
析 师 能 从 未 知名 字 的 特定 目标 节点 里 提取 信息 ， 只 需要 知道 尼 和 某 个 已 知名 字 节 点 的 天 系 就 可 以 了 。 利 用 该 特性 构建 适合 的 XPath 语 句 需要 遵 
jenodet/relation: : node2 特 征 ， 其 中 的 node2 和 node1 之 间 具 有 特定 的 天 系 。 让 我 们 尝试 对 前 面 讨论 的 问题 运用 这 个 技术 ， 在 文档 中 选中 
第 二 个 <div> 节 点 。 我 们 从 图 4-1 不 难看 出 ， 只 有 第 二 个 <div> 有 一 个 <a> 节 点 作为 其 秒 子 节点 。 这 个 特征 构成 了 第 二 个 <div> 节 点 的 唯一 特 
性 ， 我 们 可 以 用 如 下 代码 将 其 提取 出 来 : 


R> xpathSApply(parsed doc, "//a/ancestor::div") 
LLLI I 
<div lang="english" date="October/2011"> 

<hi>Rolf Turner</h1> 

<p><i>'R is wonderful, but it cannot work magic'</i> <br/><emph>answering a 
request for automatic generation of 'data from a known mean and 95% CI' 
</emph></p> 

<p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help"> 
R-help</a></p> 
</div> 


在 这 个 例子 里 ,我 们 首先 在 文档 中 选取 <a> 忆 后 ， 再 从 这 些 节 操 集 合 中 选择 所 有 名 为 div 的 得 先 节 点 。 把 这 个 结果 证 操 集 与 之 前 的 结果 比 
较 ， 我 们 发现 这 次 返回 的 是 更 小 的 集合 。 如 果 我 们 感 兴趣 的 是 从 该 节操 集中 只 提取 和 斜体 字 的 文本 ， 我 们 可 以 对 上 述 表达 式 进行 直接 的 扩展 。 为 
了 从 上 面 选 定 的 <div> 节 点 继续 往 下 一 或 多 层 获取 所 有 <i> 节 点 ， 我 们 可 以 把 //i 加 到 表达 式 中 : 


R> xpathSApply (parsed doc, "//a/ancestor::div//i") 
[ [1] ] 


<i>'R is wonderful, but it cannot work magic'</i> 


作为 XPath 有 能 力 表达 节点 间 复 杂 关 系 的 证 明 ， 我 们 来 看 看 下 面 的 语句 : 


R> xpathSApply (parsed doc, "//p/preceding-sibling: :h1") 
[ [1] ] 


<hi>Robert Gentleman</h1> 


[ [2]] 
<hi>Rolf Turner</h1> 


在 这 个 例子 里 ， 我 们 首先 选择 文档 中 所 有 的 <p> 节 点 ， 然 后 再 选择 他 们 之 前 的 所 有 <h1> 兄 弟 节 点 。[9 


MATS 


，XPath 语 句 对 于 其 长 度 和 其 中 使 用 的 特殊 符号 的 数量 是 无 限制 的 。 为 了 说 明 通 配 待 和 其 他 节点 关系 的 结合 
语句 : 


结合 ， 我 们 来 看 看 下 面 的 


R> xpathSApply (parsed doc, "//title/parent::*") 
[ [1] ] 


<head> 


<title>Collected R wisdoms</title> 
</head> 


FARERI parent h t hE pW SawTS4 7 mi <title> ERAS. ACA AOS EASA. Pixs: 
起 来 后 ， 整 个 语 


象 如 图 4-2 所 示 。 


ZEA 
3-20 A 


句 束 会 返回 文档 中 所 有 <title> 忆 点 的 所 有 父 节 点 。 要 获取 完整 的 可 用 关系 列表 ， 请 查看 表 4-1。 对 所 有 可 用 节点 关系 的 视觉 印 


Ancestor-o r-self 


Ancestor 





_©@ 


| - “Attribute 


p 
—_ 


Namespace 











Preceding 

















Descendant 





Descendant-or-self 


A42 ”图 形 化 显示 的 节点 关系 。 文 字 描 述 的 是 各 节点 相对 于 白色 节点 的 关系 
表 4-1 XPath oy $b 


轴 名 
ancestor 
ancestor-or-self 
attribute 
child 
descendant 
descendant-or-self 
following 
following-sibling 
namespace 
parent 
preceding 
preceding-sibling 


self 


结 果 
选取 当前 市 点 的 所 有 先天 ( 父 节 点 、 和 祖父 节点 等 ) 
选取 当前 市 点 的 所 有 先辈 (OO. FAS F) 及 当前 市 点 目 身 
选取 当前 节点 的 所 有 属性 
选取 当前 节点 的 所 有 子 节 点 
选取 当前 节点 的 所 有 后 非 〈 子 点、 孙子 节点 等 ) 
选取 当前 布点 的 所 有 后 碍 (Pa. PPS) BST A 
选取 文档 中 位 于 当前 节点 财 合 标签 之 后 的 所 有 内 容 
选取 当前 节点 之 后 的 所 有 兄弟 节点 
选取 当前 节点 的 所 有 命名 空间 节点 
选取 当前 节点 的 父 节点 
选取 文档 中 出 现在 当前 市 点 前 的 所 有 市 点 ， 先 埋 、 属 性 和 命名 空间 市 点 际 外 
VERSA ZT LS T A 
ARCA A 


来 源 : http://www.w3schools.com/xpath/xpath_axes.asp 


4.2.3 XPath 谓语 


除了 用 于 及 掘 树 的 天 系 属 性 ， 


能 利用 谓语 (predicate) 来 获取 和 处 理 文档 的 数字 及 文本 属性 。 把 这 些 特性 应 用 到 选取 节点 的 条 件 表 


达 式 中 ， 可 以 给 XPath 语句 增加 另 一 个 层次 的 表达 能 力 。 简 而 言 之 ， 谓 语 就 是 能 针对 节点 的 名 字 、 值 或 属性 进行 调用 的 简单 国 数 ， 这 些 函 数 会 
对 某 个 条 件 (或 一 组 条 件 ) 是 true 还 是 false 进 行 判 断 。 从 内 部 看 ， 谓 语 都 是 返回 逻辑 结果 。 结 果 为 true 的 那些 节点 会 被 选中 。 谓 语 的 一 般 用 法 
如 下 : 我 们 在 一 个 节点 (或 节点 集 ) 之 后 的 方 括号 里 指定 谓语 ， 如 node1[predicate]。 这 样 就 选 定 了 文档 中 所 有 符合 predicate 所 表达 条 件 的 


<node1> 节 点 。 因 为 对 所 有 谓语 的 


元 整 讲 解 对 本 书 来 说 既 不 可 能 、 亦 非 有 益 ， 所 以 我 们 把 注意 力 集中 在 最 常用 而 且 我 们 认为 最 有 用 的 XPath 请 


语 上 。 我 们 在 表 4-2 里 列 出 了 某 些 可 用 的 谓语 。 我 们 的 目标 不 是 对 该 主题 进行 全 面 的 讨论 ， 而 是 要 表述 运用 谓语 的 内 在 逻辑 。 我 们 会 看 到 某 些 谓 


语 可 以 和 所 谓 的 操作 符 配 合 使 用 。 表 4-3 介 


绍 了 可 用 操作 符 的 完整 概述 。 


4-2 Moe SF SXPath wy Hy MN 


ae 数 


name (<node>) 


text (<node>) 


attribute 


string-length 
(str1) 


translate (stril, 
Str2, str3) 


contains(stri, 
str2) 


starts-with 
(strl, str2) 


substring-before 
(strl, str2) 


substring-after 
(strl, str2) 


not (arg) 


local-name 
{(<node>) 


count (<node>) 


position (<node>) 


last () 
操作 符 
| 
一 
k 
div 
= 


返回 <node> 或 某 个 节点 集 的 第 
-个 节点 的 毅 名 

返回 <node> 或 某 个 节点 集 的 第 
-个 节点 的 值 

返回 某 个 节点 或 某 个 节点 集 里 第 
-个 节点 的 属性 值 

返回 stri 的 长 度 。 如 果 没 有 字符 串 


参数 ， 就 返回 当前 节点 字符 串 值 的 长 度 


通过 把 str2 里 的 字符 替换 为 str3 
里 的 字符 ， 对 str1 进行 转换 


WE stri 和 包含 str2 就 返回 TRUE, 
否则 返回 FALSE 


WF stri 的 开头 是 str2 就 返回 
TRUE, f Mjik [p] FALSE 


返回 stri 中 在 str2 出 现 之 前 的 
部 分 


返回 stri 中 在 str2 出 现 之 后 的 
ABA 


如 果 和 参数 的 布尔 值 是 FALSE 就 返回 
TRUE， 如 果 是 TRUE 就 返回 FALSE 


返回 当前 <node> 或 某 个 节点 集 
的 第 一 个 节点 的 命名 ,不 带 信 名 空 
DETE: 

返回 某 个 节点 集 =node>s 的 计数 


返回 当前 被 处 理 的 <node> 的 索引 


返回 最 后 一 个 太太 ) 





表 4-3 XPath 操 作 符 


计算 两 个 节点 





示 例 
//* [name()}='title']: Returns: <titles 


//*[text()='the book homepage']: 
Returns: <i> with value The book homepage 
//div[@id='R Inventor']; Returns: 
<div: with attribute id value R Inventor 
//hi [string-length()>11]: Returns: 
chl» with value Robert Gentleman 
//div[translate(./@date,'2003','2005' 
='June/2005']: Returns: first <div> node 
with date attribute value June/2003 
//div[contains(@id, 'Inventor')]: 
Returns: first <div> node with id attribute value 
R Inventor 
//ilstarts-with (text (), 'the']: Retums: 
<i> with value The book homepage 
//div[substring-before (@date, '/',)= 
'Tune']: Returns: <div> with date attribute 
value June/2003 
//div[substring-after(@date, '/')]: 
Returns: <div> with date attribute value June/2003 
//div [not (contains (@id, 'Inventor'))]-; 
Returns: the <div> node that does not contain 
the string /nventor in its id attribute value 


f//* [local-name([()='address')]: 
Returns: <address> 


//div[count(.//a)=0]; Result: The 
second <div> with one <a> child 

//div/p [position ()=1]: Result: The first 
<p> node in each <div> node 


//div/p[last ()]; Result: The last <p> 
node im each <div> node 


T A 
//i | //b 
5+3 
8-2 
8*5 
8 div 5 
count = 27 
count != 27 


— 

个 (> 
< 
—— 


\ 
4 





ie fF FF To H 
< count < 27 
<= count <= 27 
> count > 27 
>= CGuUnE >= 27 
or count = 27 or count = 28 
and count > 26 and count < 30 


来 源 : $44 A http: //www.w3schools.com/xpath/xpath_operators.asp o 
42.3.1 ”数字 谓语 


XPath 能 够 利用 文档 中 隐 合 的 数字 属性 ， 如 计数 或 位 置 。 有 几 个 谓语 可 以 返回 数字 属性 ， 它 们 可 以 用 来 创建 条 件 语句 。 节 点 的 位 置 是 一 个 
我 们 很 容易 实现 的 重要 的 数字 特性 。 让 我 们 采集 出 现在 第 一 个 位 置 的 <p> 那 些 节 扣 : 


R> xpathSApply (parsed doc, "//div/p [position ()=1]") 
gaan 
<p> 
<i>'What we have is nice, but we need something very different'</i> 
</p> 


[ [21] 

<p><i>'R is wonderful, but it cannot work magic'</i> <br/><emph>answering a 
request for automatic generation of 'data from a known mean and 95% CI' 
</emph></p> 


这 里 用 到 的 谓语 是 position () 和 等 号 = 的 组 合 。 辐 该 语句 返回 两 个 节点 。 这 个 位 置 谓语 用 来 判定 的 并 不 是 文档 中 所 有 的 <p> 节 点 里 哪个 处 
于 第 一 的 位 置 ， 而 是 在 每 个 相对 于 其 父 节 点 的 节点 子 集中 哪个 是 第 一 个 。 如 果 要 选 定 某 节点 集 的 最 后 一 个 ， 且 无 须 提前 知道 节点 子 集 里 的 节点 
数 ， 我 们 就 可 以 使 用 last O 操作 符 : 


R> xpathSApply(parsed doc, "//div/p[last()]") 
LLI] 
<p><b>Source: </b>Statistical Computing 2003, Reisensburg</p> 


[[2]] 
<p> 
<b>Source: </b> 
<a href="https://stat.ethz.ch/mailman/listinfo/r-help">R-help</a> 


</p> 


数字 谓语 产生 的 输出 可 以 进一步 用 数学 操作 符 进 行 处 理 。 要 选 定 倒数 第 二 个 <p> 节 点 ， 我 们 可 以 对 前 面 的 语句 进行 如 下 扩展 : 


R> xpathSApply(parsed doc, "//div/p[last()-1]") 
[ [1]] 
<p> 
<i>'What we have is nice, but we need something very different'</i> 
</p> 


[[2]] 


<p><i>'R is wonderful, but it cannot work magic'</i> <br/><emph>answering a 


request for automatic generation of 'data from a known mean and 95% CI' 
</emph></p> 


计数 是 另 一 种 我 们 可 以 用 作 节 点 选取 条 件 的 数字 属性 。 最 常用 的 计数 之 一 是 根据 其 子 节点 数量 选取 节点 。 这 种 人 远 辑 的 一 个 实现 例子 如 下 所 


lI 


R> xpathSApply (parsed doc, "//div[count(.//a) >0]") 
[[1]] 
<div lang="english" date="October/2011"> 

<hl>Rolf Turner</hl1> 

<p><i>'R is wonderful, but it cannot work magic'</i> <br/><emph>answering a 
request for automatic generation of 'data from a known mean and 95% CI' 
</emph></p> 

<p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help"> 
R-help</a></p> 
</div> 


该 语句 可 以 分 步 理解 如 下 : 一 开始 在 文档 中 选取 所 有 的 <div> 节 点 (//div) 。 然 后 通过 使 用 count () 谓语 来 改进 选取 条 件 ， 这 个 谓语 可 
以 把 我 们 需要 计数 的 东西 作为 参数 。 在 本 例 中 ， 我 们 需要 计数 的 是 选中 的 <div> 节 点 后 的 <a> 节 点 的 数量 (//a) 。 其 中 的 .元 素 是 用 来 表示 把 
之 前 的 选取 结果 作为 前 提 条 件 。 从 内 部 原理 而 言 ， 这 样 会 产生 另 一 个 节点 集 ， 然 后 把 它 传递 给 count () 函数 。 配 合 使 用 操作 符 和 值 > 0， 我 们 
请 求 的 是 文档 中 那些 有 至 少 一 个 <a > 子 节点 的 <div> 节 点 。 除 了 节点 ， 我 们 也 可 以 设 定 一 个 节点 里 属性 数 的 条 件 : 


R> xpathSApply (parsed doc, "//div [count (./@*) >2]") 

[[1]] 

<div id="R Inventor" lang="english" date="June/2003"> 
<hl>Robert Gentleman</h1> 
<p><i>'What we have is nice, but we need something very different'</i></p> 
<p><b>Source: </b>Statistical Computing 2003, Reisensburg</p> 

</div> 


其 中 @ 元 素 用 于 获取 选 定 节操 的 属性 。 在 这 个 例子 里 ，./@* 表 达 式 会 从 当前 选中 的 节操 返回 所 有 的 属性 ， 不 管 它们 的 属性 名 是 什么 。 我 们 
把 这 些 属性 传递 给 计数 函数 并 判断 属性 的 个 数 是 否 大 于 2。 只 有 那些 让 该 函数 返回 TRUE 的 书 点 才 会 被 选中 。 


某 个 元 素 中 内 容 的 字符 数 是 另 一 种 计数 ， 我 们 能 获取 它 并 用 于 有 条 件 地 选取 忆 点 。 当 我 们 对 于 要 提取 的 目标 节点 所 知 甚 少 ， 只 知道 它 包 合 
一 些 大 篇 幅 的 文字 时 ， 这 种 计数 尤其 有 用 。 它 的 实现 如 下 所 示 : 


R> xpathSApply(parsed doc, "//*[string-length (text ())>50]") 
[[1]] 


<i>'What we have is nice, but we need something very different'</i> 


[ [21] 
<emph>answering a request for automatic generation of 'data from a 
known mean and 95% CI'</emph> 


我 们 首先 获取 包含 文档 中 所 有 证 点 的 节操 集 (//*) 。 对 于 这 个 市 点 集 ， 我 们 引入 一 个 条 件 ， 让 这 些 证 点 中 的 内 容 (由 text () 返回 ) 必须 
包含 多 于 50 个 字符 。 


有 时候， 把 节点 选取 逻辑 反 过 来 ， 得 到 能 让 谓语 不 返回 TRUE 的 所 有 节点 也 是 有 用 的 。XPath 含 有 一 些 让 查询 中 能 运用 布尔 逻辑 的 浮 数 。 要 
表达 对 节操 集 的 反选 ， 可 以 使 用 not 布 尔 逊 数 来 选取 所 有 不 被 查询 条 件 选 中 的 节点 。 例 如 ， 要 选取 所 有 不 多 于 2 个 属性 的 <div> 节 点 ， 我 们 可 以 


R> xpathSApply(parsed doc, "//div [not (count (./@*) >2)]") 
PEL] 
<div lang="english" date="October/2011"> 

<hl>Rolf Turner</h1ə> 

<p><i>'R is wonderful, but it cannot work magic'</i> <br/><emph>answering a 
request for automatic generation of 'data from a known mean and 95% CI' 
</emph></p> 

<p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help"> 
R-help</a></p> 
</div> 


4.2.3.2 文本 谓语 


因为 HTML/XML 文 件 或 任何 它们 的 变 体 都 是 纯 文本 文件 ， 所 以 文档 的 文本 属性 对 于 节操 选取 也 是 有 用 的 谓语 。 如 果 我 们 需要 根据 它们 的 名 
字 、 内 容 、 属 性 或 属性 值 中 的 文本 选取 节点 ， 这 种 谓语 就 能 派 得 上 用 场 了 。 除 了 完全 匹配 ， 对 于 字符 串 的 处 理 往往 需要 子 串 的 部 分 匹配 工具 。 
尽管 XPath 1.0 在 这 方面 已 经 很 如 了 ，2.0 版 实现 的 关于 正则 表达 式 谓语 的 完整 库 是 一 个 巨大 的 提高 (字符 串 操作 相关 技术 的 介绍 请 参见 第 8 
=) 。 不 过 ，XPath 1.0 在 大 部 分 情况 下 都 很 好 用 ， 所 以 转 到 其 他 的 XPath 实现 版 本 并 无 必要 。 首 先 ， 让 我 们 来 探讨 一 下 进行 字符 串 完全 匹配 的 
方法 。 我 们 已 经 介绍 了 用 于 判断 数值 是 否 相 等 的 等 于 (=) 操作 符 ， 而 它 也 可 以 用 于 字符 串 的 完全 匹配 。 要 选取 文档 中 所 有 包含 了 写 于 2011 年 
10 月 的 语录 的 <div> 市 感 ， 也 就 是 说 这 些 证 点 包含 的 date 属 性 值 为 October/2011， 我 们 可 以 这 样 写 : 


R> xpathSApply (parsed doc, "//div[@date='October/2011']") 
DELI] 
<div lang="english" date="October/2011"> 

<hl>Rolf Turner</h1l> 

<p><i>'R is wonderful, but it cannot work magic'</i> <br/><emph>answering a 
request for automatic generation of 'data from a known mean and 95% CI' 
</emph></p> 

<p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help"> 
R-help</a></p> 
</div> 


首先 选取 文档 中 所 有 的 <div> 节 点 ， 然 后 再 从 上 一 步 的 选取 结果 中 选取 那些 date 属 性 值 为 October/2011 的 节点 。 在 很 多 情况 下 ， 等 号 
(=) 字符 串 表 达 的 完全 匹配 是 一 种 极其 严格 的 操作 。 更 宽松 的 一 种 方式 是 对 字符 串 进行 部 分 匹配 。 这 种 方法 的 一 般 应 用 是 这 样 的 : 
string_method (text1, ‘text2') ， 其 中 text1 对 应 文档 中 的 某 个 文本 元 素 ，text2 则 对 应 我 们 希望 匹配 的 一 个 字符 串 。 要 选取 文档 中 所 有 值 里 
包含 了 magic 这 个 里 词 的 节点 ， 我 们 可 以 构造 如 下 的 语句 : 


R> xpathSApply(parsed doc, "//*[contains(text(), 'magic')]") 
[ [1]] 


<i>'R is wonderful, but it cannot work magic'</i> 


CDNB, RTECS AAA, FFlAgcontains () 锐 数 对 这 个 三 点 集 引 入 条 件 ， 判 断 text () 返回 的 值 是 售 包 含 magic 
这 个 单词 。 请 注意 ， 所 有 的 部 分 匹配 消 数 都 是 对 大 小 写 敏感 的 ， 因 此 首 字 母 大 写 的 Magic 关 键 词 束 会 匹配 不 上 。 要 从 字符 串 起 始 位 置 开始 匹配 
一 个 特征 ， 可 以 使 用 starts_with () 函数 。 下 面 的 代码 片段 说 明了 这 个 函数 的 应 用 方法 ， 它 可 以 选取 所 有 具有 id 属性 且 属 性 值 以 字母 R 开 头 的 


<div> DR: 


R> xpathSApply (parsed doc, "//div[starts-with(./@id, 'R')]") 
eon 


<div id="R Inventor" lang="english" date="June/2003"> 


<hil>Robert Gentleman</h1> 
<p><i>'What we have is nice, but we need something very different'</i></p> 
<p><b>Source: </b>Statistical Computing 2003, Reisensburg</p> 

</div> 


ends with () 则 用 来 从 字符 串 尾 部 开始 匹配 字符 串 。 在 进行 匹配 操作 之 前 ， 对 节点 字符 串 进 行 预 处 理 常 常 是 有 用 的 。 这 个 步骤 的 用 处 是 把 
节点 值 、 属 性 和 属性 值 规 范 化 ， 例 如 ， 去 掉 首 字母 大 写 或 蔡 换 某 些 子 串 。 让 我 们 尝试 提取 那些 发 表 于 2003 年 的 语录 。 正 如 我 们 在 源 代码 中 所 
见 ，<div> 节 点 包含 了 一 个 date 属 性 ， 其 中 存放 了 语录 发 表 的 年 份 信息 。 要 把 选取 条 件 设 定 到 这 个 值 上 ， 我 们 可 以 友 布 下 列表 达 式 : 


R> xpathSApply (parsed doc, "//div[substring-after(./@date, '/')='2003']//i") 
[[1]] 


<i>'What we have is nice, but we need something very different'</i> 


让 我 们 一 段 一 段 地 分 析 上 面 的 语句 。 首 先是 选取 文档 中 所 有 的 <div> 节 点 (//div) 。 选 取 结 果 进 一 步 由 从 位 于 返回 的 属性 值 进 行 条 件 过 
滤 。 在 谓语 里 ， 我 们 首先 获取 所 有 选中 节点 的 date 属 性 值 (./@date) 。 这 样 会 得 到 如 下 向 量 : June/2003，October/2011。 然 后 这 些 值 会 传 
递 给 substring-after () 函数 ， 在 该 函数 里 这 些 值 会 按 第 二 个 参数 指定 的 /字符 分 开 。 从 内 部 看 ， 该 函数 会 输出 2003，2011。 然 后 ， 我 们 对 属 
性 值 2003 进 行 完全 匹配 ， 惑 选取 了 我 们 查找 的 那个 <div> 节 点 。 最 后 ， 我 们 通过 在 表达 式 里 加 入 //i 操 作 ， 上 顺藤摸瓜 找到 它 下 面 的 <i> 节 操 。 


[1] 这 两 步 也 可 以 相互 分 开 进行 。 你 可 以 使 用 getNodeSet0 来 应 用 XPath。 然 后 可 以 通过 循环 结构 或 apply0 系列 函数 对 得 到 的 节点 集 进行 后 续 处 理 并 
重 构 其 中 的 信息 。 

2] 当 在 实际 网 络 抓 取 的 场景 中 运用 XPath 时 ， 通 常 不 能 依赖 类 似 于 图 4-1 的 对 节点 关系 的 视觉 化 表达 。 这 类 信息 必须 直接 从 网 页 源 代码 中 读 取 。 
这 往往 也 是 使 用 XPath 进行 信息 提取 工作 中 最 吃力 的 部 分 。 


[3] 请 注意 ， 一 种 对 上 述 查询 更 简洁 的 表达 方式 是 //div/p[I]。 


4.3 ”提取 节操 元 到 


到 目前 为 止 , 我 们 已 经 运用 xpathSApply() 来 返回 匹配 特定 XPath 语 句 的 节点 。 该 消 数 会 返回 一 个 列表 对 象 ， 其 中 包含 节点 的 名 字 、 值 和 
属性 值 (如 果 有 ) 。 我 们 通常 不 关心 节点 的 整体 ， 而 只 是 需要 从 中 提取 特定 的 信息 ， 例 如 它 的 值 。 幸 运 的 是 ， 这 个 任务 实施 起 来 直截了当 。 我 
们 只 要 在 立 数 调用 里 把 一 个 提取 水 数 传递 给 fun 参 数 丈 可 以 了 。XML 组 件 提 供 了 大 量 的 这 类 函数 ， 可 以 用 来 选取 我 们 感 兴趣 的 信息 片段 。 对 所 有 
提取 遂 数 的 完整 概述 见 表 4-4。 例 如 ， 为 了 提取 <title> 忆 点 的 值 ， 可 以 简单 地 编写 如 下 语句 : 


R> xpathSApply(parsed doc, "//title", fun = xmlValue) 
[1] "Collected R wisdoms" 


不 同 于 含有 完整 节点 信息 的 列表 ，xpathSApply () 这 次 返回 的 是 一 个 向 量 对 象 ， 其 中 仅仅 包含 匹配 其 XPath 语句 的 节点 的 值 。 对 于 没有 值 
言 息 的 节点 ， 该 函数 会 返回 一 个 NA 值 。 除 了 值 ， 我 们 还 可 以 从 属性 里 提取 信息 。 把 xmlAttrs () 传递 给 fun 参 数 可 以 选取 选中 节点 里 的 所 有 属 
性 : 


R> xpathSApply(parsed doc, "//div", xmlAttrs) 
[[1]] 


id lang date 
"R Inventor" "english" "June/2003" 
[[2]] 

lang date 


"english" "October/2011" 


在 大 部 分 应 用 中 ， 我 们 感 兴趣 的 只 是 特定 的 属性 ， 而 不 是 所 有 的 节点 属性 。 要 从 一 个 节点 选取 特定 的 属性 ， 可 以 用 xmlGetAttr () 并 加 入 
属性 名 : 


R> xpathSApply(parsed doc, "//div", xmlGetAttr, "lang") 
[1] "english" "english" 


表 4-4 XML 提取 函数 


xmlGetAttr Ta TE 
<r rh) WA 
xmlChildren FT 


4.3.1 扩展 fun 参 数 


对 从 XPath 返 回 节操 集 的 处 理 ， 在 4.2 节 介绍 的 单纯 的 特性 提取 基础 上 ， 还 可 以 轻松 地 向 外 扩展 。 不 同 于 从 节点 提取 信息 ， 我 们 可 以 采用 
fun 参 数 对 节点 元 素 进行 任何 可 用 的 数值 或 文本 操作 。 我 们 可 以 为 具体 目的 创建 新 的 浮 数 ， 或 为 具体 需求 修改 已 有 的 提取 函数 ， 并 将 它们 传递 给 
xpathSApply () 。 这 些 后 续 处 理 的 目标 可 以 是 整理 节点 的 数值 或 文本 内 容 ， 也 可 以 是 为 了 应 对 提取 失败 情况 的 菏 些 异常 处 理 。 


为 了 在 第 一 个 应 用 里 讲解 相关 概念 ， 我 们 尝试 提取 文档 中 所 有 的 语录 并 在 提取 过 程 中 把 所 有 符号 转化 为 小 写 。 我 们 可 以 使 用 R 的 基础 遂 数 
tolower () ， 它 会 把 字符 串 转 换 为 小 写 。 首 先 我 们 编写 一 个 叫 作 lowerCaseFun () 的 函数 。 在 该 函数 中 ， 我 们 就 简单 地 把 节点 值 的 信息 传递 
给 tolower () 国 数 ， 并 返回 转换 后 的 文本 : 


R> lowerCaseFun <- function(x) { 
x <- tolower (xmlValue (x) ) 
x 


把 该 函数 加 到 xpathSApply () 的 fun 参 数 里 ， 就 可 以 得 到 : 


R> xpathSApply(parsed doc, "//div//i", fun = lowerCaseFun) 
[1] "'what we have is nice, but we need something very different'" 
[2] "'r is wonderful, but it cannot work magic'" 


现在 ,返回 的 向量 由 所 有 转换 后 的 证 点 值 组 成 ， 这 样式 省 去 了 提取 操作 完成 后 的 额外 后 续 处 理 步 台 。 第 二 个 更 复杂 的 后 续 处 理 立 数 会 包括 
某 些 基本 字符 串 操作 ， 这 些 操作 可 以 运用 stringr 组 件 里 的 功能 。 同 样 ， 我 们 可 以 先 编写 一 个 消 数 ， 用 它 加 载 stringr 组 件 、 采 集 数 据 并 提取 年 份 


all. 


R> dateFun <- function(x) { 
require (stringr) 


date <- xmlGetAttr(node = x, name = "date") 
year <- str extract (date, "[0-9]{4}") 
year 


把 该 函数 传递 给 xpathsApply () 的 fun 参 数 ， 融 可 以 得 到 : 


R> xpathSApply(parsed doc, "//div", dateFun) 
LL] *2003" *26011" 


我 们 也 可 以 利用 fun 参 数 处 理 XPath 语 句 返 回 一 个 空 节点 集 的 情况 。 在 XML 的 DOM 里 ，NULL 对 象 用 来 表示 一 个 不 存在 的 节点 。 我 们 可 以 应 
用 一 个 定制 的 立 数 ， 它 包括 对 NULL 对 象 的 检测 以 及 针对 这 个 检测 的 真 假 判 断 结 果 进 行 的 后 续 处 理 : 


R> idFun <- function(x) { 
id <- xmlGetAttr(x, "id") 
id <- ifelse(is.null(id), "not specified", id) 
return (id) 


在 上 面 的 定制 函数 中 ， 第 一 行 代 码 把 节点 的 id 属性 值 保 存 到 一 个 新 的 对 象 jd 里 。 根 据 该 属性 值 是 否 为 NULL 的 条 件 ， 我 们 在 第 二 行 代码 中 要 
么 返回 not specified， 要 么 返回 该 id 值 。 如 果 要 查看 结果 ， 束 把 该 消 数 传递 给 xpathSApply () : 


R> xpathSApply(parsed doc, "//div", idFun) 
[1] "R Inventor" "not specified" 


在 XPath 表达 式 里 使 用 变量 


前 面 的 例子 都 足够 简单 ， 所 以 用 一 个 固定 的 XPath 表达 式 融 可 以 查询 到 所 有 信息 。 不 过 ， 有 时 候 不 可 避免 地 需要 把 XPath 表达 了 式 本 身 看 作 提 
取 程序 的 变量 部 分 。 数 据 分 析 师 经 常会 友 现 特定 的 信息 类 型 在 不 同文 档 中 的 编码 方式 并 不 统一 ， 因 此 ， 要 给 所 有 文档 创建 一 个 合法 的 XPath 表 

达 式 瓯 怕 束 不 可 能 了 ， 特 别 是 在 网 站 的 未 来 版 本 可 能 改变 的 情况 下 。 为 了 摘 述 这 种 情况 ， 可 以 参考 从 XML 文 件 technology.xml 中 提取 人 信息， 该 
文件 在 3.5.1 书 介绍 过 。 之 前 ,我 们 从 该 文件 里 提取 了 Apple 的 股票 信息 ， 不 过 我 们 现在 要 面 对 提取 所 有 公司 的 股票 信息 的 问题 。 但 问题 在 于 ， 
作为 提取 目标 的 收盘 信息 (< close> ) 是 封装 在 具有 不 同名 字 (Apple, Google, IBM) 的 父 市 点 中 的 。 我 们 可 以 通过 使 用 sprintf () BE 
灵活 的 XPath 表 达 式 来 解决 这 个 问题 ， 而 不 是 为 每 个 公司 单独 创建 查询 消 数 。 首 先 ， 我 们 重新 解析 该 文档 ， 并 创建 一 个 市 有 相关 公司 名 的 字 


符 向 量 : 
R> parsed stocks <- xmlParse(file = "technology.xml") 
R> companies <- c("Apple", "IBM", "Google") 


下 一 步 ， 使 用 sprintf () 来 创建 查询 。 在 该 函数 内 部 ， 我 们 设置 了 XPath 表达 式 的 基本 模板 。 字 符 串 %s 就 是 用 来 表示 变量 部 分 ， 在 这 里 s 代 
表 一 个 字符 串 变 量 。companies 对 象 则 指示 了 我 们 希望 著 换 9%s 的 元 素 : 


R> (expQuery <- sprintf£("//%s/close", companies) ) 
[1] "//Apple/close" "//IBM/close" "//Google/close" 


我 们 可 以 照 前 例 进行 处 理 ， 首 先 ， 安 排 一 个 提取 函数 : 


R> getClose <- function(node) { 
value <- xmlValue (node) 
company <- xmlName (xmlParent (node) ) 
mat <- c(company = company, value = value) 


然后 把 这 个 提取 函数 传递 给 xpathSApply() 。 在 这 里 还 进一步 把 输出 转换 为 更 方便 的 数据 框 格式 ， 并 改变 了 向 量 的 类 型 : 


R> stocks <- as.data.frame(t (xpathSApply (parsed stocks, expQuery, getClose) ) ) 
R> stocksSvalue <- as.numeric(as.character(stocks$value) ) 
R> head(stocks, 3) 
company value 
1 Apple 520.6 
2 Apple 520.0 
3 Apple 519.0 


4.3.2 XML 命 名 空间 


在 第 3 章 介 绍 XML 拉 术 时 ， 我 们 讲解 了 命名 空间 ， 它 是 用 来 在 网 络 文 档 里 创建 可 唯一 识别 的 节点 的 一 个 特性 。 当 在 单个 文档 内 部 用 了 不 同 的 


标记 词汇 时 ， 命 名 空间 融会 成 为 XML 不 可 或 缺 的 一 部 分 。 这 种 情况 可 能 是 把 两 个 不 同 的 XML 文件 合并 为 一 个 文档 的 结果 。 如 果 其 中 的 XML 文件 
采用 了 相似 的 词汇 ， 命 名 空间 束 有 助 于 解决 不 确定 性 问题 ， 并 防止 名 字 互 相 冲 突 。 


单独 的 命名 空间 也 给 我 们 迄今 为 止 用 到 的 XPath 语句 带 来 了 一 个 问题 ，XPath 通 常 只 考虑 缺 省 命名 空间 。 在 本 节 会 学 习 如 何 指定 特定 节点 集 
所 在 的 命名 空间 ， 并 由 此 提取 出 感 兴趣 的 元 素 。 让 我 们 回 到 介绍 XML 命名 空间 时 (3.4 节 ) 所 用 到 的 例子 。 文 件 books.xml 不 仅 包 含 了 一 个 
HTML 标 题 ， 还 包含 在 XML 节 点 内 的 有 天 一 本 书 的 信息 。 我 们 一 开始 先 用 xmlParse () 解析 该 文档 并 将 其 内 容 输 出 到 屏幕 : 


R> parsed xml <- xmlParse("titles.xml") 
R> parsed xml 
<?xml version="1.0" encoding="UTF-8"?> 
<!DOCTYPE presidents SYSTEM "presidents.dtd"> 
<root xmlns:h="http://www.w3.org/1999/xhtml" xmlns:t="http:// 
funnybooknames.com/crockford"> 
<h:head> 
<h:title>Basic HTML Sample Page</h:title> 
</h:head> 
“Eno 10-1 1T 
<t:author>Douglas Crockford</t:author> 
<t:title>JavaScript: The Good Parts</t:title> 
</t:book> 
</root> 


WX MIF, RERI MERN <title> BRIBERY, HRSA: JavaScript: The Good Parts。 一 开始 我 们 可 以 上 友 
布 一 个 对 文档 中 所 有 <title> 节 点 的 调用 ， 并 获取 它们 的 值 : 


R> xpathSApply(parsed xml, "//title", fun = xmlValue) 
list () 


很 明显 ， 上 面 的 调用 会 返回 一 个 空 列表 。 这 里 的 关键 问题 在 于 ， 文 档 中 的 两 个 <title> 节 点 都 没有 定义 在 缺 省 命名 空间 下 ， 而 标准 的 XPath 
是 在 缺 省 命名 空间 下 操作 的 。 特 定 的 命名 空间 可 以 在 <root> 节 点 的 xmlns 声 明 中 进行 检测 。 这 个 例子 里 声明 了 两 个 单独 的 命名 空间 ， 分 别 用 字 
母 h 和 t 引 用 。 跳 过 单独 命名 空间 的 一 种 方法 是 构造 一 个 直接 指向 我 们 感 兴趣 的 本 地 名 称 的 查询 |: 


R> xpathSApply(parsed xml, "//*[local-name()='title']", xmlValue) 
[1] "Basic HTML Sample Page" "JavaScript: The Good Parts" 


在 这 里 ， 首 先 选 择 文 档 中 所 有 的 节点 ， 然 后 再 从 中 选取 带 有 本 地 名 title 的 所 有 节点 。 要 对 文档 进行 能 针对 命名 空间 的 XPath 查询 ， 我 们 可 以 
扩展 上 述 函 数 ， 在 xpathSApply () 函数 里 使 用 namespaces 参 数 来 指示 第 二 个 <title> 节 点 定义 时 所 在 的 特定 命名 空间 。 我 们 知道 ， 命 名 空间 
信息 出 现在 <root> 节 点 里 。 我 们 可 以 把 第 二 个 命名 空间 字符 捉 传 递 给 xpathSApply() 遂 数 的 hamespaces 参 数 : 


R> xpathSApply(parsed xml, "//x:title", namespaces = c(x = "http:// 
funnybooknames.com/crockford"), 

fun = xmlValue) 
[1] "JavaScript: The Good Parts" 


类 似 地 ， 如 果 我 们 感 兴趣 的 是 从 第 一 个 命名 空间 下 的 <title> 节 点 里 提取 信息 ， 那 么 可 以 直接 修改 命名 空间 的 URI: 


R> xpathSApply(parsed xml, "//x:title", namespaces = c(x = "http:// 
www.w3.org/1999/xhtml1"), 

fun = xmlValue) 
[1] "Basic HTML Sample Page" 
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码 万 式 来 撒 定 命名 空间 对 应 的 URI。 命 名 空间 永远 作为 一 个 XML 元 素 的 属性 值 进行 声明 。 对 于 上 面 的 例子 文件 ， 该 信息 出 现在 <root> 节 操 的 


xmlns 属 性 中 。 利 用 这 个 知识 ， 我 们 残 可 以 通过 使 用 xmlNamespaceDefinitions () 函数 提取 第 二 个 命名 空间 的 URI: 


R> nsDefs <- xmlNamespaceDefinitions (parsed xml) [[2]] 
R> ns <- nsDefsSuri 

R> ns 

[1] "http://funnybooknames.com/crockford" 


把 这 个 信息 保存 到 一 个 新 的 对 象 中 之 后 ， 该 命名 空间 的 URI 就 可 以 传递 给 XPath 查 询 ， 以 从 该 命名 空间 下 的 <title> 节 点 提取 信息 : 


R> xpathSApply(parsed xml, "//x:title", namespaces = c(x = ns), xmlValue) 
[1] "JavaScript: The Good Parts" 


4.3.3 ”XPath 的 辅助 性 小 工具 


和 XPath 的 多 样 性 相伴 的 一 个 代价 是 它 比 较 陡 的 学 习 曲 线 。 切 学 者 和 有 经 验 的 XPath 用 户 都 会 友 现 ， 下 面 的 工具 对 于 校 验 和 构建 用 于 效 据 提 
取 工 作 的 合法 语句 是 很 有 帮助 的 : 


SelectorGadget SelectorGadget (http://selectorgadget.com) 是 一 个 开源 的 书签 小 工具 ， 它 能 通过 鼠标 点 击 的 方法 ， 对 创建 适当 
XPath 语 句 的 过 程 进 行 简 化 。 要 利用 它 的 功能 ,请 访问 SelectorGadget 网 站 并 创建 该 页 面 的 一 个 书签 。 在 你 感 兴趣 的 网 站 上 ， 可 以 通过 点 击 该 
书签 来 激活 SelectorGadget。 一 旦 在 左下 角 出 现 一 个 工具 条 ，SelectorGadget 就 被 激活 了 ， 会 在 鼠标 移 过 网 页 时 高 亮 显 示 该 页 面 的 DOM 元 
素 。 点 击 某 个 元 素 ， 就 会 把 它 加 入 需要 抓 取 的 节点 列表 里 。 根 据 这 些 选 择 ，SelectorGadget 会 产生 一 个 通用 语句 ， 我 们 可 以 通过 点 击 XPath 按 
钮 来 获取 它 。 然 后 ， 该 XPath 表 达 式 可 以 传递 给 xpathSApply() 的 path 参 数 ， 这 里 你 需要 注意 ， 用 来 包 住 XPath 表 达 式 的 引号 类 型 不 能 是 在 表 
达 式 内 部 使 用 过 的 (例如 ， 用 于 属性 名 ) . AW, MERAS S ("") 或 单 引 号 (") 来 蔡 换 它们 。 


Web Developer Tools 很 多 现代 浏览 器 都 包含 了 一 套 开 友 者 工具 ， 用 来 帮助 检查 网 页 中 的 元 素 ， 并 产生 可 以 传递 给 XML 节 后 覃 找 尔 数 的 
合法 XPath 语 句 。 除 了 当前 DOM 的 信息 ， 开 发 者 工具 也 能 够 退路 动态 网 页 里 DOM 元 素 的 变化 。 我 们 会 在 6.4 节 利用 这 些 工具 ，。 


[1] 字符 串 操 作 的 介绍 请 参见 第 8 章 。 需 要 特别 指出 的 是 ， 定 制 的 提取 函数 中 的 str_extract0 函 数 会 通过 所 谓 的 正则 表达 式 采集 四 个 连续 的 数字 。 正 


则 表达 式 的 概念 和 细节 也 会 在 第 8 章 进 行 讲解 。 


小 结 


本 草 针 对 用 于 查询 XML 文 档 的 XPath 语 言 进行 了 广泛 的 介绍 。 我 们 想 表 明 ，XPath 对 于 希望 能 高 效 地 处 理 网 络 数据 的 数据 分 析 师 而 言 ， 是 一 
笔 不 可 或 缺 的 投资 。 借 助 于 本 章 最 后 介绍 的 一 些 工具 ， 很 多 数据 提取 中 的 问题 甚至 只 需 通 过 简单 点 击 元 素 和 粘贴 返回 的 表达 式 就 能 迎刃而解 。 
尽管 它们 很 有 帮助 ， 但 是 这 些 工具 对 于 一 些 错 绿 复杂 的 提取 问题 也 有 可 能 失效 ， 因 此 ， 了 解 如 何 从 头 开 始 创建 表达 式 仍 然 是 必要 的 近 能 。 我 们 
也 要 表明 ， 创 建 适 用 的 XPath 语句 很 少 是 一 锤子 买卖 ， 而 是 一 个 需要 反复 渐进 的 学 习 过 程 。 这 个 过 程 可 以 用 三 个 步骤 的 循环 来 表示 。 在 创建 阶 
段 ， 我 们 拼 北 一 个 有 希望 返回 正确 信息 的 XPath 语 句 。 在 测试 阶段 ， 我 们 应 用 该 XPath 语 句 观察 返回 的 节操 集 或 错误 信息 ， 然 后 友 现 返回 的 古 点 
集 可 能 是 过 于 广泛 还 是 过 于 局 限 。 在 XPath 查 询 失 败 的 情况 下 ， 学 习 阶 段 就 是 一 个 必要 的 阶段 。 从 这 种 失败 中 学 习 ， 我 们 就 会 推导 出 一 个 更 合 
适 的 XPath 表达 式 ， 例 如 ， 通 过 把 它 改 得 更 严格 或 更 宽松 ， 以 此 来 获取 那些 恰好 是 我 们 需要 的 信息 。 返 回 第 一 步 ， 我 们 运用 改善 过 的 XPath 来 检 
二 它 是 人 否 获 得 了 正确 的 节点 集 。 对 于 很 多 提取 问题 ， 我 们 友 现 反复 经 历 这 个 循环 是 很 有 必要 的 ， 它 有 利于 巩固 对 于 上 自动 化 采集 程序 的 健壮 性 的 
信心 。 我 们 会 在 9.2.2 节 中 再 次 详细 讲解 XPath 的 数据 抓 取 策略 。 


当 用 XPath 代 码 处 理 某 个 从 没 见 过 的 网 页 实例 时 ， 如 提取 代码 是 要 每 天 自动 执行 的 (参见 11.2 节 ) ，XPath 健 壮 性 的 问题 就 更 为 严重 。 不 可 
避免 地 ， 网 站 会 经 历 结构 的 变化 ， 元 素 会 被 删除 或 转移 ， 新 的 特性 会 被 实现 ， 视 觉 表现 会 被 修改 ， 这 些 变化 最 终 也 会 影响 网 页 的 内 容 。 这 对 于 
流行 的 网 站 来 说 尤其 如 此 。 但 是 我 们 会 看 到 ， 在 XPath 语句 和 辅助 代码 的 设计 中 可 以 进行 具体 的 部 署 ， 以 便 提 高 代码 的 健壮 性 ， 并 人 在 提取 失败 
时 警告 分 析 师 。 当 要 从 文档 中 提取 文本 信息 时 ， 有 一 种 可 能 性 是 依赖 于 文本 谓语 。 给 查询 代码 增加 实质 性 的 信息 也 会 让 代码 增加 必要 的 健壮 
性 。 


延伸 阅读 


对 XPath 和 和 XML 组件 的 完整 探讨 超出 了 本 章 的 范围 。 要 深入 了 解 XML 组 件 的 全 貌 ， 感 兴趣 的 读者 可 以 参阅 Nolan 和 Temple Lang (2014) 
的 文章 。 对 该 组 件 更 简洁 的 介绍 是 由 Temple Lang (2013c) 提供 的 。Tennison 提 供 了 一 个 XPath 1.0 的 完整 概述 (Tennison 2001) 。 另 一 个 
对 XPath 1.0 和 2.0 的 方法 有 帮助 的 概述 可 以 在 Holzner (2003) 的 闭 作 中 找到 。 如 需 天 于 包括 XPath 在 内 的 网 络 反 术 的 优秀 在 线 文档 ， 请 访问 
Mozilla Developer Network (2013) 。 


AY) 
bay 


1.XPath 成 为 一 门 特定 域 语 言 的 原因 ? 
2.XPath 是 XML Path 语 言 ， 但 它 对 于 HTML 网 页 也 有 效 。 试 解释 其 中 的 原因 。 


3. 回 到 fortunes1.html 文 件 ， 考 虑 如 下 XPath 表达 式 : //a[text () [contains (., 'R-help') ]]$。 蔡 换 §8， 获 取 值 为 “Robert 


Gentleman” 的 <h1> 节 点 。 
4. 用 适当 的 字符 串 函 数 创 建 一 个 谓语 ， 判 断 语 录 中 的 月 份 是 否 是 10 月 (October) 。 


5. 考 虑 下 列 两 个 用 来 从 HTML 文 件 里 提取 段落 节点 的 XPath 语 句 。1.//div//p，2.//Pp。 判 断 这 两 个 语句 中 哪 一 个 产生 了 让 结果 的 汽 围 里 小 的 
请 求 。 解 释 你 这 么 判断 的 理由 。 


6. 对 于 从 fortunes.html 中 提取 语录 的 任务 ， 核 实 XPath 表 达 式 Wi 不 会 返回 正确 的 结果 。 解 释 它 失效 的 原因 。 
7.XML 文 件 potus.xm| 包 含 了 美国 总 统 的 传记 信息 。 把 该 文件 解析 到 R 会 话 的 一 个 对 象 中 。 

(a) 提取 所 有 总 统 的 姓名 。 

(b) 从 第 40 任 总 统 开始 ， 提 取 所 有 总 统 的 姓名 。 

(c) 提取 所 有 共和 党 总 统 的 <occupation> 节 点 的 值 。 

(d) 提取 所 有 也 是 浸 礼 会 教徒 (Baptist) 的 共和 党 总 统 的 <occupation> 世 点 的 值 。 

(e) <occupation> 节 点 包含 了 开头 和 结尾 都 带 有 多 余 空 格 的 字符 串 。 通 过 扩展 提取 遂 数 删除 这 些 空格 。 
(f) 从 <education> 节 点 提取 信息 ， 把 所 有 “No formal education” 的 实例 替换 为 NA。 

(9) 提取 所 有 任期 起 始 于 1960 年 及 其 之 后 的 总 统 的 <name> 节 点 。 


8.Delaware 州 保管 了 一 套 该 州 政府 信息 中 心 及 其 他 州立 机 构 发 布 的 数据 集 存档 。 查 看 一 下 Naturalizations.xml (包括 在 本 章 的 材料 中 ， 
Mnttp://www.r-datacollection.com) 。 该 文件 包含 了 来 自 最 高 法 院 的 入 籍 (naturalization) 记录 信息 。 把 这 些 数据 转换 为 R 数 据 框 


9. 英 联邦 战争 公墓 委员 会 的 数据 库 包 含 了 墓地 的 地 理 位 置 和 为 在 第 一 次 世界 大 战 中 丧生 的 人 们 举办 的 纪念 仪式 的 相关 信息 。 这 些 数据 被 重 
构 为 KML 文 档 ， 这 是 一 种 XML 类 的 数据 结构 。 查 看 一 下 cwgc-uk.kml (包含 在 本 章 的 材料 中 ) 。 解 析 访 数据 并 根据 名 字 和 坐标 信息 创建 数据 
框 。 在 一 个 地 图 中 标 出 它们 的 分 布 情况 。 


10. 查 看 SelectorGadget (参见 4.3.3 节 ) 。 访 问 http://planning.maryland.gov/Redistricting/2010/legiDist.shtml 并 用 SelectorGadget 
找 出 适合 于 提取 右 下 角 名 为 Maryland 2012Legislative District Maps (with Precincts) 的 表格 中 所 有 链接 的 XPath 表达 式 。 


第 5 草 HTTP 


要 从 网 络 获取 数据 ， 就 必须 让 我 们 用 的 软件 具备 与 服务 器 及 Web 服 务 进 行 通信 的 能 力 。 在 网 络 上 进行 通信 的 通用 语 是 HTTP (HypterText 
Transfer Protocol) ， 即 超 文 本 传输 协议 。HTTP 的 历史 要 追溯 到 20 世 纪 80 年 代 ， 当 时 在 位 于 瑞士 日 内 瓦 附近 的 欧洲 核子 研究 中 心 (CERN) T 
作 的 Tim Berners-Lee, Roy Fielding 和 其 他 一 些 人 发 明了 它 (Berners-Lee 2000; Berners-Lee et al.1996) 。 它 是 网 络 客户 端 (如 浏览 器 ) 
和 服务 器 (也 就 是 能 对 来 自 网 络 的 请 求 进行 响应 的 计算 机 ) 之 间 进 行 通信 时 最 常用 的 协议 。 实 际 上 ,我们 打开 的 每 个 HTML 页 面 、 在 浏览 器 查 
看 的 每 张 图 片 、 观 看 的 每 个 视频 都 是 通过 HTTP 传 输 的 。 当 我 们 在 地 址 栏 中 输入 URL 时 ， 我 们 通常 不 再 以 http:// 开 头 ， 但 是 根据 主机 名 (如 六 
datacollection.com) 直接 把 它 作 为 通过 HTTP 传 输 的 请 求 已 经 是 约定 俗 成 的 做 法 ， 并 会 被 浏览 器 自动 处 理 。HTTP 当 前 的 官方 1.1 版 本 要 追溯 到 
1999 (Fielding et al.1999) ， 这 一 事实 有 力 地 证 明了 它 在 这 么 多 年 里 都 保持 着 可 靠 性 一 一 在 同一 时 间 段 里 ，HTML 等 其 他 网 络 标 准 经 历 了 
频繁 的 变化 。 





我 们 很 少 直接 和 HTTP 打 交道 。 创 建 和 友 送 HTTP 请 求 以 及 处 理 服务 器 端 返回 的 HTTP 响 应 都 是 我 们 的 浏览 器 和 邮件 客户 端 上 自动 进行 的 工作 。 
想象 一 下 ， 如 果 我 们 每 次 需要 得 找 文章 的 时 候 ， 都 必须 构建 类 似 “ 用 HTTP 协 议 把 www.nytimes.com/ 主 机 的 pages/science/ 目 录 下 名 叫 
index.html 的 文档 传递 给 我 ”这 样 的 请 求 ， 那 该 是 多 么 费劲 啊 。 不 过 ， 你 是 否 曾 经 尝试 过 利用 R 来 做 这 件 事 呢 ?” 前 面 我 们 曾经 宣称 R 对 于 从 网 络 
及 集 数据 是 个 很 万 便 的 工具 ,为 了 自圆其说 ,我 们 需要 证 明 它 实际 上 很 适合 模拟 浏 哆 器 和 网 络 的 通信 。 正 如 我 们 将 要 看 到 的 ， 对 于 很 多 基本 的 
网 络 抓 取 任 务 ， 我 们 仍然 不 需要 关心 后 台 的 HTTP 通 信 细 节 ， 因 为 在 缺 省 情况 下 R 会 帮 我 们 处 理 它 。 不 过 ， 在 某 些 情况 下 ， 为 了 获取 我 们 需要 的 
言 息 ， 我 们 必须 深入 文件 传输 协议 并 准确 构建 请 求 。 本 章 会 介绍 HTTP 中 那些 对 我 们 成 为 成 功 的 网 络 抓 取 者 最 关键 的 部 分 。 


本 章 一 开始 先 介绍 客户 端 -服务 器 会 话 (5.1.1 节 ) 。 在 我 们 讲解 HTTP 的 技术 细节 之 前 ， 我 们 会 跑 个 题 ， 先 简要 讨论 一 下 URL， 也 就 是 互联 
网 上 资源 的 标准 化 命名 (5.1.2 节 ) 。 然 后 ， 我 们 会 把 HTTP 讲 解 的 内 容 划分 成 几 部 分 : HTTP 消 息 逻 辑 的 基础 知识 (5.1.3 节 ) 、 请 求 方法 (5.1.4 
节 ) 、 状 态 码 (5.1.5 节 ) 以 及 标 头 (5.1.6 节 ) 。 在 第 二 部 分 ， 我 们 会 探讨 用 于 身份 识别 和 验证 的 HTTP 高 级 特性 (5.2.1 节 和 5.2.2 节 ) ， 并 讨论 
代理 的 用 法 (5.2.3 节 ) 。 虽 然 HTTP 是 迄今 为 止 网 络 上 应 用 最 广泛 的 协议 ， 但 是 我 们 也 会 讲解 HTTPS 和 FTP (5.3 节 ) 。 最 后 ， 我 们 的 收尾 部 分 
是 基于 HTTP 的 通信 在 R 语 言 里 的 实际 实现 (5.4 节 ) 。 总 体 而 言 ， 我 们 尽 可 能 让 这 些 对 HTTP 的 介绍 不 那么 技术 化 ， 同 时 还 要 让 你 在 本 书 没有 了 明 
确 讲解 到 的 某 些 情况 下 能 把 R 用 作 一 个 网 络 客户 端 。 


5.1 HTTP 基 础 知识 


5.1.1 ”和 和 Web 服务 器 的 简短 对 话 


要 访问 网 络 上 的 内 容 ， 我 们 习惯 了 在 浏览 器 里 输入 URL 或 直接 点击 链接 ， 通 过 这 两 种 方式 从 一 个 网 页 转 到 另 一 个 、 查 看 邮件 、 阅 读 新 闻 或 
下 载 文件 。 除 了 这 个 为 用 户 人 交互 而 设计 的 程序 层面 ， 还 有 几 个 其 他 的 层面 (技术 、 标 准 和 协议 ) 才能 让 这 一 切 成 为 可 能 。 它 们 合 在 一 起 被 称 为 
互联 网 协议 族 (Internet Protocol Suite, IPS) 。 这 个 协议 族 中 最 重要 的 两 个 协议 是 TCP (传输 控制 协议 ，Transmission Control Protocol) 
和 IP (因特网 协议 ，Internet Protocol) 。 他 们 代表 了 因特网 层 (P) 和 传输 层 (TCP) 。 这 些 技 术 的 内 部 运转 机 制 是 超出 本 书 范围 的 ， 但 盏 
运 的 是 ， 我 们 无 须 手 工 处 理 这 两 种 协议 的 内 容 融 能 成 功 地 完成 网 络 抓 取 。 不 过 ， 需 要 指出 的 是 ，TCP 和 IP 在 网 络 中 主要 负责 计算 机 之 间 的 可 靠 
数据 传输 。[1 


在 这 些 传输 标准 之 上 ， 还 有 一 些 专 用 的 信息 交换 协议 ， 如 HTTP ( 超 文 本 传输 协议 ，Hyper Text Transfer Protocol) 、FTP (文件 传输 协 
议 ，File Transfer Protocol) 、POP (邮局 协议 ，Post Office Protocol， 用 于 电子 邮件 获取 ) 、SMTP (简单 邮件 传输 协议 ，Simple Mail 
Transfer Protocol) 或 IMAP (因特网 消息 访问 协议 ，Internet Message Access Protocol， 用 于 电子 邮件 存储 和 获取 ) 。 所 有 这 些 协议 都 定 
义 了 标准 的 词汇 表 和 程序 ， 用 于 客户 端 和 服务 器 之 间 进 行 天 于 具体 任务 的 对 话 ， 这 些 任务 包括 获取 或 存储 文档 、 文 件 、 消 息 等 。 它 们 都 包括 在 
应 用 层 的 标签 之 下 。 


和 它 的 命名 所 提示 的 有 所 不 同 的 是 ，HTTP 并 不 仅仅 是 获取 超 文本 文档 的 标准 。 昌 然 HTTP 是 相当 简单 的 ， 但 是 它 也 足够 灵活 ， 能 够 从 服务 
器 请 求 几 乎 任何 类 型 的 资源 ， 还 能 用 来 向 服务 器 发 送 数据 ， 而 不 仅仅 只 是 获取 。 

图 5-1 展 示 了 一 次 常规 的 用 户 一 一 服务 器 交互 的 形象 化 图 解 。 简 单 地 说 ， 当 我 们 访问 类 似 www.r-datacollection.com/index.html 的 网 站 
时 ， 我 们 的 浏览 器 就 起 到 HTTP 客 户 端的 作用 。 客 户 端 首先 询问 DNS (域名 系统 ，Domain Name System) 服务 器 我 们 输入 的 URL 中 的 域名 部 
分 对 应 的 是 哪个 |P 地 址 。E] 在 我 们 的 例子 里 ， 域 名 部 分 就 是 www.r-datacollection.com。D] 当 浏览 器 获取 了 从 DNS 响应 的 |P 地 址 之 后 ， 它 就 通 


过 TCP/IP 建 立 与 请 求 的 HTTP 服 务 器 之 间 的 连接 。 一 旦 连接 建立 ， 客 户 端 和 服务 器 就 可 以 交换 信息 一 一 在 我 们 的 例子 里 是 通过 交换 HTTP 消 息 来 
进行 的 。 最 基本 的 HTTP 会 话 是 由 一 个 客户 端 请 求 和 一 个 服务 器 响应 组 成 的 。 例 如 ， 我 们 的 浏览 器 会 请 求 某 个 特定 的 HTML 网 页 、 某 个 图 片 或 某 
个 其 他 文件 ， 服 务 器 的 响应 则 是 发 送 该 文档 或 在 出 错时 给 出 错误 码 。 在 我 们 的 例子 里 ， 浏 览 器 会 请 求 index.html 并 解析 响应 的 内 容 ， 以 此 产生 
网 站 的 一 个 表现 形式 。 如 果 收 到 的 文档 中 包含 了 像 图 片 之 类 需要 进一步 链接 的 资源 ， 浏 览 器 融会 继续 向 相 天 的 服务 器 友 送 HTTP 请 求 ， 直 到 所 有 
必要 的 资源 都 传输 完毕 。 在 早期 的 互联 了 网， 用户 确 实 可 以 观察 浏览 器 是 如 何 一 点 一 点 地 加 载 网 页 的 。 不 过 现在 ， 由 于 有 了 宽 囊 、HTTP 连 接 保持 
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图 5-1 通过 HTTP 进 行 的 用 户 -服务 器 通信 


天 于 HTTP， 有 两 个 必须 时 刻 牢 记 的 重要 事实 。 第 一 ，HTTP 不 是 一 个 仪 仪 用 来 传输 超 文 本 网 页 的 协议 ， 它 还 能 被 用 于 所 有 的 资源 。 第 
二 ，HTTP 是 一 个 无 状态 协议 。 这 意味 着 如 果 没 有 其 他 的 手段 ， 客 户 端 和 服务 器 之 间 的 每 个 请 求 -响应 的 来 回 都 会 缺 省 地 被 当 作 首 次 交互 来 处 
理 ， 无 论 它们 之 前 已 经 交换 了 多 少 次 信息 。 


让 我 们 来 看 看 这 些 标准 化 消息 的 一 个 例子 。 为 了 这 个 例子 ， 我 们 建立 了 到 www.r-datacollection.com 的 连接 ， 并 请 求 服 务 器 发 送 
index.html。HTTP 客 户 端 首先 把 主机 URL 翻 译 为 一 个 |P 地 址 并 在 缺 省 的 HTTP 端 口 (80 端 口 ) 建立 到 服务 器 的 连接 。 该 端口 可 以 想象 为 服务 器 
所 在 房子 的 门 ，HTTP 客 户 端 就 是 通过 敲 这 个 门 来 建立 连接 的 。 该 会 话 在 客户 端 方面 的 总 结 信息 如 下 : A 


About to connect() to www.r-datacollection.com port 80 (#0) 
Trying 173.236.186.125... connected 


Connected to www.r-datacollection.com (173.236.186.125) port 80 (#0) 
Connection #0 to host www.r-datacollection.com left intact 


e ùW N = 





建立 连接 之 后 ， 服 务 器 融会 等 待 请 求 ， 我 们 的 客户 端 会 向 服务 器 太 送 如 下 的 HTTP 请 求 : 


GET /index.html HTTP/1.1 
Host: www.r-datacollection.com 


Ww N = 





现在 轮 到 客户 端 等 待 来 自 服务 器 的 响应 。 服 务 器 会 用 一 些 通用 信息 加 上 我 们 请 求 的 文档 内 容 进行 响应 。 吕 这 里 的 HTTP 响 应 如 下 所 示 : 


HTTP/1.1 200 OK 
Date: Thu, 27 Feb 2014 09:40:35 GMT 
Server: Apache 


Vary: Accept-Encoding 
Content-Length: 131 


nN mn & WN 一 





8 <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN"> 
9 <html> <head> 

10 <title></title> 

11 </head> 
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| Closing connection #0 


于 是 这 次 事务 就 完成 了 。 
5.1.2 ”URL 的 语法 


网 站 和 其 他 网 络 内 容 的 位 置 是 用 统一 资源 定位 符 (Uniform Resource Locators，URL) 来 表示 的 。 它 们 并 不 是 HTTP 的 一 部 分 ， 但 能 让 用 


户 能 直观 地 通过 HTTP 和 其 他 协议 进行 通信 。 总 体 的 URL 格 式 可 以 表示 如 下 : 
scheme://hostname:port/path?querystring#fragment 


对 应 的 一 个 真实 例子 如 下 : 


http://www.w3.org:80/People/Berners-Lee/#Bio 


每 个 URL 都 以 一 个 模式 开头 ， 它 定义 了 客户 端 /应 用 和 服务 器 之 间 通 信 所 采用 的 协议 。 在 上 面 的 例子 中 ， 这 个 模式 是 http， 用 一 个 冒号 分 
开 。 还 有 其 他 的 一 些 模式 ， 如 ftp (文件 传输 协议 ) 或 mailto， 后 者 对 应 的 是 依赖 于 SMTP (简单 邮件 传输 协议 ) 标准 的 邮件 地 址 。 大 部 分 模式 
是 关于 网 络 通信 的 ， 但 你 也 可 以 友 现 file 模 式 比较 眼熟 ， 它 对 应 的 是 在 本 地 或 网 络 存 储 中 的 文件 。 

主机 名 则 提供 了 存放 我 们 感 兴趣 资源 的 服务 器 的 名 字 。 它 是 一 个 服务 器 的 唯一 识别 符 。 主 机 名 和 溅 口 部 分 组 合 起 来 就 能 告诉 客户 端 ， 它 需 
要 去 敲 哪 一 扇 门 才能 访问 请 求 的 资源 。 例 子 中 提供 的 相关 信息 是 www.w3.org:80。80 端 口 是 传输 控制 协议 (TCP) 的 缺 省 端口 。 如 果 客 户 端 能 
够 使 用 缺 省 端口 ，URL 的 端口 这 部 分 就 可 以 省 略 。 主 机 名 通常 是 人 类 可 读 的 ， 但 是 每 个 主机 名 同样 也 有 个 机 器 可 读 的 I|P 地 址 。 在 上 面 例子 
里 ，www.w3.org 属 于 IP 地 址 128.30.52.37， 这 样 下 面 的 URL 就 和 前 面 例子 里 的 URL 是 等 价 的 : [1 


http://128.30.52.37/People/Berners-Lee/#Bio 
因为 我 们 通 意 提供 的 是 便于 人 类 阅读 的 URL 版 本 ， 域 名 系统 (DNS) 会 把 主机 名 翻译 成 数值 型 的 I|P 地 址 。 因 此 ，DNS 往 往 被 比 作 全 球 的 电 
话 号 码 短 ， 让 提供 了 主机 名 的 用 户 能 转 到 相应 的 服务 或 设备 上 。 


主机 名 和 端口 号 之 后 的 路 径 用 于 确定 被 请 求 的 资源 在 服务 器 上 的 位 置 。 它 的 作用 类 似 于 任何 传统 文件 系统 里 的 路 径 ， 在 这 些 文件 系统 里 ， 
文件 是 内 府 在 文件 夹 里 的 ， 而 文件 夹 也 可 以 内 许 在 其 他 文件 夹 里 ， 以 此 类 推 。 路 径 的 分 段 是 用 和 斜 杠 (/) 来 分 开 的 。 

在 某 些 情况 下 ，URL 在 路 径 里 提供 了 补充 信息 ， 帮 助 服务 器 正确 地 处 理 请 求 。 额 外 的 信息 是 在 查询 字符 串 (query string) 里 提交 的 ， 其 中 
包 售 了 一 对 或 多 对 name=value 参 数 。 查 询 字符 串通 过 一 个 问号 和 URL 的 其 他 部 分 分 开 。 它 利用 'field=value' 格 式 对 数据 进行 编码 ， 并 用 & 符 号 
分 开 多 对 的 “名 字 - 取 值 ”参数 。 


https://www.google.com/search?gq=RCurl+filetype%3Apdf 


当 我 们 在 Google 上 搜索 类 型 为 PDF 的 “RCurl” 文 档 时 ， 就 构建 了 一 个 相应 的 URL。 搜 索 栏 输入 的 “RCurl filetype: pdf” 是 一 个 紧凑 型 
语法 ， 用 来 搜索 包含 词 条 “RCurl” 的 PDF 文 件 ， 而 q=RCurl+filetype%3Apdf 这 个 名 字 - 取 值 参 数 对 就 是 对 它 进行 转换 后 的 实际 请 求 。 大 家 可 


以 利用 更 多 的 搜索 参数 (如 tbs=qdr: y) 轻松 扩展 这 个 请 求 。tbs=qdr: y 这 个 例子 会 把 搜索 结果 限定 为 一 年 之 内 发 布 的 内 容 。[8] 


最 后 ， 分 段 符 的 作用 是 指向 文档 中 的 特定 部 分 。 当 我 们 请 求 的 资源 是 HTML 而 且 分 段 识 别 符 指向 了 一 个 小 段 、 图 片 或 类 似 元 素 时 ， 这 种 方 
式 就 能 起 作用 。 在 前 面 的 例子 http://128.30.52.37/People/Berners-Lee/#Bio 中 ， 分 段 符 #Bio 的 作用 是 请 求 直接 跳 转 到 文档 的 传记 部 分 。 注 
意 ， 分 段 符 是 被 浏览 器 处 理 的 ， 也 融 是 说 ， 跳 转 友 生 在 客户 端 。 在 服务 器 返回 完整 的 文档 之 后 ， 分 段 符咒 可 以 用 来 显示 特定 的 网 页 部 分 。 


URL 有 一 些 编码 的 规则 。URL 是 通过 AsCll 字 符 集 传输 的 ， 而 ASCll 字 符 集 被 限定 为 128 个 字符 的 集合 。 所 有 不 包含 在 该 集合 里 的 字符 以 及 大 
部 分 特殊 字符 都 需要 转 义 ， 也 融 是 用 标准 的 表示 法 来 苦 代 。 再 看 一 下 前 面 的 例子 。 表 达 式 “RCurl filetype: pdf” 在 URL 里 被 转换 为 
q=RCurl+filetype%3Apdf。 这 里 的 空格 和 冒号 看 起 来 都 “不 够 安全 ”， 所 以 被 分 别 蔡 损 为 一 个 加 号 + 和 URL 编 码 %3A。URL 编 码 也 被 称 为 百 分 
号 编码 ， 因 为 每 个 这 样 的 编码 都 是 以 百 分 号 % 开 头 的 。 注 意 ， 加 号 + 是 URL 转 义 序列 的 特例 ， 它 只 有 在 查询 部 分 是 合法 的 。 在 其 他 部 分 ， 空 格 的 
合法 URL 编 码 是 %20。 在 http://www.w3schools.com/tags/ref_urlencode.asp 可 以 找到 一 个 完整 的 URL 编 码 清单 。 


通过 R 的 基础 函数 URLencode () 和 URLdecode () ， 我 们 可 以 编码 或 解码 URL 里 的 字符 。URLencode () 的 reserved 参 数 能 确保 非 字 母 
或 数字 的 字符 都 用 它们 对 应 的 百 分 号 表示 法 进行 编码 : 

R> t <- "I'm Eddie! How are you & you? 1 + 1 = 2" 

R> (url <- URLencode(t, reserve = TRUE) ) 

[1] "I'ms20Eddie! %20How%s20are%2 0you%s20%26%20you%3£%4201%204+%201%20%3d%202" 


R> URLdecode (url) 
[1] "I'm Eddie! How are you & you? 1 +1 = 2" 


在 我 们 希望 手工 构造 URL 的 时 候 ， 这 些 消 数 就 会 派 上 用 场 。 例 如 ， 指 定 一 个 GET 表 单 (GET 会 在 后 面 的 部 分 讲解 ) ， 而 无 须 自己 动手 插入 百 


分 号 编码 。 
5.1.3 ”HTTP 消息 


HTTP 消 息 ， 不 管 是 客户 端 请 求 还 是 服务 器 响应 的 消息 ， 都 由 三 部 分 组 成 : 起 始 行 (start line) 、 标 头 (headers) 和 正文 (body) ， 参 见 
图 5-2 和 图 5-3。 相 对 请 求 和 响应 来 说 ， 消 息 的 起 始 行 是 不 同 的 ， 而 标 头 和 正文 部 分 具有 相同 的 结构 。 


| [method] [path] [version] [CRLF] {| tfr =| POST /greetings.html HTTP/1.1 i 
AE a en ae EE SEE ee T E E al sk 
i [header name:] [header value] [CRLF] | a ' Host: www.r-datacollection.com | 
: [CRLF] | 和 标 头 ， | 
一 | [RAR J 
' [body] | 正文 ‘Hi, there. 
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\ 
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图 5-2 HTTP 请 求 模 式 


' [version] [status] [phrase] [CRLF] ， 

L--------------------------------- 4 a A - 
ı [header name:] [header value] [CRLF] | ERL | Content-type: text/plain | 
| [CRLF] ] 你 六 | | 


em BSB SB SB SE SE SK SE = 


| - 'I am fine, thank you very much. 
| [body ] I | j y y 
AuR nt 一 ! 正文 'What else might I help you with? | 
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图 5-3 HTTP A 


把 起 始 行 和 标 头 、 标 头 和 正文 分 开 需要 用 到 回 车 符 和 换行 符 (CRLF) 。 上 注意， 起 始 行 和 标 头 是 用 一 个 顺序 的 CRLF 来 分 开 的 ， 而 正文 前 面 
的 最 后 一 个 标 头 后 面 有 两 个 CRLF。 在 R 里 ， 这 些 字符 都 表示 为 转 义 字符 ，\r 代 表 回 车 ，\n 代 表 换行 。 


起 始 行 是 每 个 HTTP 消 息 的 第 一 行 ， 也 是 不 可 缺少 的 一 行 。 在 请 求 中 ， 第 一 行 定 义 了 请 求 使 用 的 方法 ， 后 面 跟随 的 是 所 请 求 资源 的 路 径 ， 接 
着 是 客户 端 能 够 处 理 的 HTTP 最 高 版 本 。 在 我 们 的 例子 里 ， 我 们 使 用 了 POST 方法 请 求 greetings.html， 并 声明 我 们 的 客户 端 最 高 能 够 理解 到 
HTTP 的 1.1 版 。 


服务 器 响应 的 起 始 行 开 始 是 一 个 服务 器 能 够 处 理 的 最 高 HTTP 版 本 ， 跟 随 着 一 个 状态 码 ， 然 后 是 人 类 可 读 的 状态 解释 。 在 这 里 ，www.r- 
datacollection.com 会 告诉 我 们 它 最 高 能 够 理解 HTTP 的 1.1 版 ， 通 过 返回 200 的 状态 码 告诉 我 们 所 有 处 理 正 常 ， 以 及 这 个 状态 码 200 是 什么 意 
思 ， 如 OK。 


在 起 始 行 乙 后 的 标 头 为 客户 端 和 服务 器 提供 了 元 信息 ， 包 括 关 于 另 一 方 的 首选 项 或 随 消息 一 起 友 送 的 内 容 。 标 头 包 含 了 以 配对 的 “名 字 - 取 
值 ”形式 表示 的 一 套 标 头 字段 。 通 常 ， 每 个 标 头 字段 会 放 在 一 个 新 行 里 ， 名 字 和 取 值 用 一 个 冒号 : 分 开 。 如 果 一 个 标 头 行 变 得 很 长 ， 它 也 可 以 
分 开 多 行 ， 每 个 新 增 行 用 一 个 空格 字符 开始 ， 以 此 声明 它们 是 属于 前 一 个 标 头 行 的 。 

HTTP 消 息 的 正文 部 分 包含 了 数据 。 这 里 的 数据 可 以 是 纯 文本 ， 也 可 以 是 二 进 制 数据 。 正 文 由 哪 一 类 数据 构成 是 在 标 头 的 content-type 里 声 
明 的 ,后面 跟 着 MIME (多 用 途 互联 网 邮件 扩展 ，Multipurpose Internet Mail Extensions) 类 型 声明 。MIME 类 型 告诉 客户 端 或 服务 器 传输 
过 来 的 是 哪 种 类 型 的 数据 。 它 们 遵循 一 个 main-type/sub-type 的 主 / 从 类 型 模式 。 主 类 型 的 例子 包括 application、audio、image、text 和 
video 等 ， 从 类 型 则 类 似 于 application/pdf、audio/mpg、audio/o0gg、image/gif、image/jpeg、image/png、text/plain、text/html、 


text/xml、video/mp4、video/quicktime， 以 及 很 多 其 他 的 类 型 。 [0 


表 5-1 常见 的 HTTP 请 求 方法 


方 法 说 有明 
GET 从 服务 硕 检 索 资 源 
POST 利用 消息 正文 加 服务 需 发 送 数据 或 文件 ， 从 服务 需 检索 资源 
HEAD 和 GET 工作 原理 类 似 ， 但 服务 硕 啊 应 只 有 起 始 行 和 标 头 ， 没 有 正文 
PUT 把 请 求 消 息 的 正文 保存 在 服务 器 上 
DELETE 从 服务 大 删除 一 个 资源 
TRACE 追踪 消息 到 达 服 务 需 沿途 的 路 径 
OPTIONS 返回 支持 的 HTTP 方法 清单 
CONNECT 建立 一 个 网 络 连 接 


来 源 : Fielding et al. (1999) 


5.1.4 ”请 求 方法 


在 初始 化 HTTP 客 户 端 请 求 的 时 人 息 ， 可 以 从 几 个 请 求 方法 中 进行 选择 ， 参 见 表 5-1 的 概述 。 最 重要 的 两 个 HTTP 方 法 是 GET 和 POST。 这 两 个 
方法 都 是 从 服务 器 请 求 一 个 资源 ， 但 在 正文 的 使 用 上 是 不 同 的 。GET 不 会 在 请 求 的 正文 中 上 友人 送 任何 内 容 ， 而 POST 会 使 用 正文 来 友 送 数据 。 在 实 
践 中 ， 对 于 HTML 网 页 和 其 他 文件 的 简单 请 求 通常 是 用 GE 方法 执行 的 。 有 反之，POST 则 用 来 向 服务 器 发 送 数 据 ， 例 如 ， 一 个 文件 或 HTML 表 单 
里 的 输入 。 


如 果 我 们 对 来 自 服务 器 的 内 容 不 感 兴 趣 ， 我 们 可 以 使 用 HEAD 方 法 。HEAD 会 告诉 服务 器 只 需要 发 送 起 始 行 和 标 头 ， 而 无 须 传 输 请 求 的 资 
源 ， 这 样 便于 测试 我 们 的 请 求 是 否 被 接受 。 两 个 更 方便 用 于 测试 的 方法 是 OPTIONS 和 TRACE， 前 者 会 请 求 服 务 器 友 回 它 支 持 的 方法 ， 后 者 会 要 
求 获 得 该 请 求 消息 到 服务 器 所 经 过 的 所 有 代理 服务 器 (参见 5.2.3 节 ) 的 清单 。 

最 后 ， 同 样 重要 的 是 两 个 把 文件 上 传 到 服务 器 和 从 服务 器 删除 的 方法 (PUT 和 DELETE) 以 及 CONNECT 这 个 建立 HTTP 连 接 用 于 后 续 通 信 

(PRO, SSLRE, D15.3.175) 的 方法 。 


在 我 们 讨论 HTTP 实 际 应 用 (B015.475) 的 时 候 ， 我 们 会 详细 讲解 GET 和 POST 这 两 个 网 络 抓 取 最 重要 的 方法 。 


5.1.5 ”状态 码 


当 服 务 器 响应 请 求 的 时 候 ， 它 总 是 会 在 响应 的 起 始 行 发 回 一 个 状态 码 。 几 乎 每 个 人 都 会 从 浏览 网 络 的 经 历 中 知道 的 最 著名 响应 是 404， 它 声 
明 的 是 服务 器 无 法 找到 请 求 的 网 页 。 状 态 码 的 范围 是 从 100 到 599， 它 遵循 一 个 特定 的 模式 : 开头 的 那个 数字 代表 了 状态 分 类 : 1xx 是 信息 ，2xx 
是 成 功 ，3xx 是 重 定向 ，4xx 是 客户 端 错误 ，5xx 是 服务 器 错误 ， 详 见 表 5-2 的 常见 状态 码 清单 。 


45-2 ”常见 的 HTTP 状 态 码 





代 Ay a 请 说 RH 
200 正常 一 切 正 常 
202 请 求 已 理解 并 接受 ， 但 后 续 的 动作 尚未 发 生 
204 请 求 已 理解 并 接受 ， 但 无 须 返 回 后 续 数 据 ， 除非 可 能 更 新 标 头 信息 
300 请 求 已 理解 并 接受 ， 但 请 求 要 运用 到 多 个 资源 
301 请 求 的 资源 已 转移 ， 新 的 位 置 包含 在 啊 应 标 头 的 Location 里 
302 和 永久 转移 【301 ) 类 似 ， 不 过 是 临时 的 
303 重 定位 到 请 求 资源 的 位 置 
304 啊 应 有 条 件 请 求 ， 说 明 请 求 的 资源 没有 被 修改 过 
305 要 访问 请 求 的 资源 ， 必 须 使 用 在 Location 标 头 指定 的 代理 
400 Bink A Aid fate 
401 Be PF vin TEAS ALR SAA HE AE Se TOR 
403 服务 器 拒绝 提供 请 求 的 资源 ， 而 且 不 会 提供 更 多 理由 





ae IE 


404 未 找到 ARS Ae UIA FR BIA oe ih 








405 方法 不 允许 请 求 中 的 方法 对 于 指定 的 资源 是 不 允许 的 

406 服务 器 找 不 到 符合 客户 端 能 接受 的 要 求 的 资源 

500 AR Ar A ab fat Be RS ri 2) SCAR aie, JA Pia ok ay ote 

501 ARS iT ARRET A 

502 错误 网 关 作为 中 介 代 理 或 网 关 的 服务 剖 在 转发 请 求 时 得 到 了 否定 的 啊 应 
503 服务 不 可 用 服务 器 暂时 无 法 满足 该 请 求 

504 网 关 超 时 作为 中 介 代 理 或 网 关 的 服务 器 没有 获得 对 它 转 发 的 请 求 的 响应 


505 不 文 持 的 HTTP 版 本 服务 部 不 能 或 拒绝 支持 请 求 中 使 用 的 HTTP 版 本 





来 源 : Fielding et al. (1999) 


5.1.6 ” 标 头 字段 


标 头 定义 了 接收 到 请 求 或 响应 后 需要 采取 的 行动 。 标 头 的 内 容 可 以 是 通用 的 ， 也 可 以 属于 某 个 专用 的 组 : 用 于 请 求 的 标 头 字段 、 用 于 啊 应 
的 标 头 字段 以 及 关于 正文 的 标 头 字段 。 例 如 ， 请 求 标 头 字段 可 以 把 客户 端 能 作为 响应 接受 的 资源 类 型 告诉 服务 器 (比如 ， 限 定 响应 的 内 容 为 纯 
HTML 网 页 ) ， 或 给 出 客户 端的 技术 参数 (比如 ， 用 于 请 求 网 页 的 软件 是 哪个 ) 。 它 们 也 可 以 用 来 摘 述 消息 的 内 容 (如 纯 广 本、 二进制 、 图 片 
或 音频 文件 等 ) ， 也 可 以 用 到 编码 步骤 (如 压缩 ) 。 标 头 字段 总 是 遵循 相同 的 简单 语法 。 它 的 名 字 在 前 ， 并 用 冒号 和 后 面 的 值 分开 。 某 尝 标 头 


字段 会 包含 用 逗号 分 开 的 多 个 值 。 


让 我 们 通过 一 组 普通 而 重要 的 标 头 字段 示例 来 看 它们 的 作用 和 用 法 。 下 面 各 个 段落 的 概述 会 把 标 头 名 字 设 为 粗 体 ， 并 把 字段 类 型 放 在 括号 
里 ， 以 此 说 明 该 标 头 字 段 是 用 于 请 求 、 响 应 还 是 正文 。 


Accept (请 求 ) 


l Accept: text/html, image/gif, image/*,*/*;q=0.8 





Accept 是 一 个 请 求 标 头 字 段 ， 它 告诉 服务 器 哪 种 类 型 的 资源 是 客户 端 愿意 当 作 响应 来 接受 的 。 如 果 服 务 器 没有 符合 Accept 约 束 条 件 的 资 
源 ， 它 就 应 该 返回 一 个 406 状 态 码 。 可 接受 内 容 的 规格 遵循 MIME 类 型 模式 。 多 个 类 型 用 逗号 分 开 ; 分 号 用 于 声明 所 谓 的 接受 参数 (accept 
parameters) type/subtype; acceptparameter=value, type/http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15597/OEBPS/Text/...。 星 号 (*) 可 以 用 来 声明 主 类 型 (type) 和 从 类 型 
(subtype) 的 泄 围 。content-type 设 置 的 规则 如 下 : (1) 更 明确 的 类 型 优先 于 更 不 明确 的 类 型 ; (2) 多 个 类 型 的 优先 级 根据 q 参 数值 从 大 到 
小 递减 ; (3) 所 有 没有 声明 q 人 参数 的 类 型 ， 其 默认 设置 为 q = 1。 


上 面 的 例子 可 以 理解 为 : 客户 器 接 受 HTML 和 和 GIF， 如果 这 两 者 都 没有 ， 其 他 类 型 的 图 片 也 可 以 。 如 果 没 有 其 他 类 型 的 图 片 ， 客 户 端 也 能 接 
受 任何 其 他 的 内 容 类 型 。 


Accept-Encoding (请 求 ) 


l Accept-Encoding: gzip,deflate, sdch;q=0.9,identity;q=0.8;*;q=0 





Accept-Encoding4aiS Sit Ak a otter ASAI. MURRAN ER RIAAS, EARRA 
406 状 态 码 。 


上 面 的 例子 可 以 理解 为 : 客户 端 接受 gzip 和 deflate 编 码 方式 。 如 果 两 者 都 不 能 得 到 ， 它 也 可 以 接受 sdch， 和 否则 无 编码 的 内 容 也 是 可 以 的 。 
但 是 它 不 接受 任何 其 他 的 编码 方式 ， 因 为 最 后 的 接受 参数 值 为 0， 也 残 等 于 是 不 接受 。 


Allow (响应 ; 正文 ) 


l Allow: GET, PUT 


Allow 告 诉 客 户 端 哪些 HTTP 方 法 对 于 特定 资源 是 允许 的 ， 它 会 是 状态 码 为 405 的 响应 的 一 部 分 。 


Authorization (请 求 ) 


| Authorization: Basic cm9va2110jEyM01zTm90QVNLY3VyZVBX 


Authorization 是 向 服务 器 传递 用 户 名 和 密码 的 一 种 简单 方式 。 用 户 名 和 密码 首先 合并 为 username: password 格 式 并 根据 Base64 模 式 进 
行 编码 。 编 码 的 结果 会 出 现在 标 头 字 段 ， 如 上 例 所 示 。 注 意 ， 这 个 编码 过 程 并 没有 进行 加 密 ， 而 仪 仪 是 确保 所 有 的 字符 都 包含 在 AsCll 字 符 集 
中 。 我 们 会 在 5.2.2 节 更 详细 地 讨论 HTTP 验 证 机 制 。 


上 例 中 的 Authorization 标 头 字 段 声 明了 验证 方法 是 Basic (基本 验证 ) ， 而 以 Base64 模 式 编 码 的 用 户 名 -密码 组 合 是 
cm9va2lIOjEyMolzTm90QVNIY3VyZVBX。 


Content-Encoding (响应 ; 正文 ) 


| Content-Encoding: gzip 


Content-Encoding 声 明 的 是 被 应 用 于 响应 内 容 的 转换 万 式 ， 如 压缩 方法 ， 详 见 Accept-Encoding 部 分 。 


Content-Length (响应 ; 正文 ) 


l Content-Length: 108 


Content-Length 给 消息 的 接收 方 提供 了 有 天 内 容 大 小 的 信息 ， 以 OCTET (8 位 字 节 ) 存放 的 十 进 制 数 表示 。 


Content-Type (响应 ; 正文 ) 
I Content-Type: text/plain; charset=UTF-8 


Content-Type 提 供 了 有 关 正 文 内 容 类 型 的 信息 。 内 容 类 型 是 用 M1IME 类 型 搬 述 的 ， 详 见 Accept 部 分 。 


Cookie (请 求 ) 


] Cookie: sessionid=2783321; path=/; domain=r-datacollection.com; 


expires=Mon, 31-Dec-2035 23:00:01 GMT 





Cookie= MARS 28AiKH, BESet-Cookietp t FRERES. GHIIARRRasSARin——ORigs cookie, REANA ECZ 


前 是 否 和 某 个 客户 端 有 过 联系 。Cookie 标 头 字 段 则 是 在 请 求 中 把 之 前 接收 到 的 信息 返 给 服务 器 。 该 标 头 字段 的 语法 很 简单 : Cookie 字 段 是 由 
name=value 的 配对 组 成 的 ， 每 对 之 间 用 分 号 隔 开 。expires、domain、path 和 secure 这 些 名 字 是 保留 参数 ， 定 义 了 客户 端 处 理 cookie 的 方 
式 。eXpires 定 义 了 cookie 失 效 的 日 期 。 如 果 没有 给 定 失 效 日 期 ， 则 cookie 只 能 在 一 次 会 话 中 有 效 。domain 和 path 膏 明了 需要 该 cookie 的 是 哪 
些 资 源 请 求 。secure 则 用 于 指定 cookie 只 能 通过 安全 连接 (SSL， 见 5.3.1 节 ) 进行 友 送 。 我 们 会 在 5.2.1 节 更 详细 地 介绍 cookie。 


-A 


上 面 的 例子 可 以 理解 为 : cookie sessionid = 2783321 对 于 域 www.r-datacollection.com 及 其 所 有 子 目录 (通过 path=/ 声 明 ) Bx, Bx 
期 截止 到 2035 年 12 月 31 日 。 


From (请 求 ) 

] From: eddie@r-datacollection.com 

From 28 Me Bava PARE eT AABN, XB BFW ASE RA RUE RIAN AR EKA ABS ol BOM 
取 机 器 人 和 了 网络 讨 虫 的 人 。 这 个 标 头 字段 对 于 网 络 抓 取 很 有 用 ， 我 们 会 在 5.2.1 书 讨论 它 。 


Host (请 求 ) 


| Host: www.r-datacollection.com:80 


Host 是 HTTP/1.1 版 的 请 求 里 要 求 的 标 头 字段 ， 在 多 个 主机 名 重 定向 到 同一 个 IP 地址 的 情况 下 ， 它 会 帮助 服务 器 决定 用 哪 一 个 URL。 


If-Modified-Since (请 求 ) 


l If-Modified-Since: Thu, 27 Feb 2014 13:05:34 GMT 


If-Modified-since 可 以 用 于 根据 请 求 资 源 相 关 的 时 间 惟 来 处 理 请 求 。 如 果 服 务 器 友 现 在 这 个 标 头 字段 提供 的 日 期 乙 后 所 请 求 的 资源 没有 修 
改过 ， 它 就 应 该 返回 一 个 304 状 态 码 (没有 修改 ) 。 我 们 可 以 利用 这 个 标 头 来 编写 更 加 高 效 和 友好 的 网 络 抓 取 程序 (参见 9.3.3 节 ) 。 


Connection (请 求 ， 响 应 ) 


Connection: Keep-Alive 
Connection: Close 


Connection 是 一 个 比较 含糊 的 标 头 字段 ， 因 为 它 在 HTTP/1.0 和 HTTP/1.1 版 本 里 有 完全 不 同 的 用 途 。 在 HTTP/1.1 版 ， 缺 省 情况 下 链接 是 持 
久 的 。 这 意味 着 客户 端 和 服务 器 在 完成 请 求 一 响应 过 程 之 后 还 能 保持 它们 之 间 的 连接 有 效 。 相 反 ， 在 HTTP/1.0 版 ， 当 客户 端 获取 响应 之 后 ， 标 
准 的 做 法 则 是 关闭 连接 。 在 HTTP/1.0 版 ， 在 为 每 个 请 求 建立 连接 的 时 候 可 以 对 Connection 字 段 声 明 Keep-Alive 值 ， 而 在 HTTP/1.1 版 里 这 是 默 
认 过 程 ， 因 此 不 必 明 确 声明 。 反 过 来 ， 服 务 器 或 客户 端 都 可 以 在 请 求 一 响应 的 交换 结束 后 给 Connection 字 段 设 定 Close 值 ， 这 样 就 会 强制 关闭 


连接 。 


Last-Modified (响应 ; 正文 ) 
l Last-Modified: Tue, 25 Mar 2014 19:24:50 GMT 


Last-Modified 字 段 提 供 了 请 求 资 源 最 后 一 次 修改 的 日 期 和 时 间 戳 。 


Location (响应 ; 正文 ) 
| Location: redirected.html 


Location 用 于 让 消息 接收 者 重 定向 到 可 以 找到 请 求 资 源 的 位 置 。 当 内 容 已 经 被 转移 到 另 一 个 位 置 时 ， 这 个 标 头 字段 和 状态 码 3xx 配 合 使 用 ， 
而 对 于 内 容 要 根据 请 求 的 结果 而 创建 的 情况 ， 它 会 和 状态 码 201 配 合 使 用 。 


Proxy-Authorization (请 求 ) 


| Proxy-Authentication: Basic bWFnaWNpYW5zYX1zOmFicmFrYWRhYnI= 


这 个 字段 和 Authorization 用 法 相同 ， 但 它 只 适用 于 代理 服务 器 。 有 关 代 理 的 更 多 信息 ， 请 参见 9.2.3 节 。 


Proxy-Connection (请 求 ) 


l Proxy-Connection: keep-alive 


这 个 字段 和 Connection 用 法 相同 ， 但 它 只 适用 于 代理 服务 器 。 有 关 代理 的 更 多 信息 ， 请 参见 5.2.3 节 。 


Referer (请 求 ) 


l Referer: www.r-datacollection.com/index.html 


Referer 这 个 标 头 字段 的 用 途 是 告诉 服务 器 ， 对 于 该 资源 的 请 求 是 从 什么 位 置 友 出 的 。 在 上 面 的 例子 中 ，Wwww.r- 
datacollection.com/index.html 会 提供 一 个 图 片 的 链接 (例如 /pictures/eddie.jpg) 。 人 在 对 这 个 图 片 的 请 求 中 ， 可 以 加 入 Referer 标 头 字段 表 
明 用 户 已 经 在 此 网 站 上 ， 而 不 是 从 其 他 地 点 (例如 ， 另 一 个 网 站 ) 来 访问 该 图 片 。 


Server (响应 ) 


l Server: Apache/2.4.7 (Unix) mod wsgi/3.4 Python/2.7.5 OpenSSL/1.0.1e 


l Server: Microsoft-IIS/8.0 


Server 提 供 了 关于 接受 了 请 求 的 服务 器 的 信息 。 上 面 例子 里 的 第 一 个 服务 器 是 基于 UNIX 平 台 上 的 Apache 软 件 (httpd.apache.org/) , m 
第 二 个 服务 器 则 是 基于 微软 的 llS (互联 网 信息 服务 ，|nternet Information Service, www.microsoft.com/) 。 


Set-Cookie (响应 ) 


l Set-Cookie: sessionid=2783321; path=/; domain=r-datacollection.com; 
2 expires=Mon, 31-Dec-2035 23:00:01 GMT 





Set-Cookie 要 求 客户 端 保存 Set-Cookie 标 头 字段 里 包含 的 信息 ， 并 在 后 续 请 求 中 把 它 作 为 Cookie 标 头 字段 的 一 部 分 太 送 回来 。 更 深入 的 
讲解 参见 Cookie 部 分 和 5.2.1 节 。 


User-Agent (请 求 ) 


l User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) 





User-Agent A Frits T IRS ese nis Ks Prime. AADA RRE EEA An AA ERRE, E 
种 浏览 器 。 这 个 信息 有 助 于 服务 器 根据 客户 端 使 用 的 系统 调整 响应 的 内 容 。 不 过 ，User-Agent 可 以 包含 用 户 自 定义 的 任意 信息 ， 例 如 ，User- 
Agent: My fabulous web crawler 或 User-Agent: All your base are belong to us。 网 络 抓 取 者 能 够 而 且 应 该 以 负责 任 的 态度 使 用 User- 
Agent。 我 们 会 在 5.2.1 节 和 9.3.3 节 讨论 如 何 做 到 这 一 点 。 


Vary (响应 ) 


l Vary: User-Agent, Cookie, Accept-Encoding 


有 时 候 ， 服 务 器 响应 要 取决 于 特定 的 参数 ， 例 如 ， 取 决 于 浏览 器 或 客户 端的 设备 (MRAPEN) ,取决 于 用 户 之 前 是 否 访 问 了 某 个 站 
点 并 获取 了 cookie， 或 取决 于 客户 端 能 够 接受 的 编码 格式 。 服 务 器 可 以 通过 Vary 标 头 字 段 说 明 根 据 这 些 参数 对 内 容 进行 的 改动 。 


上 面 的 第 一 个 例子 说 明 响 应 内 容 会 随 着 User-Agent、Cookie 或 Accept-Encoding 参 数 的 变化 而 不 同 。 第 二 个 例子 则 是 非 限 定 的 。 它 声明 
了 非 限定 的 一 组 参数 的 改变 都 会 导致 响应 的 变化 。 该 标 头 字段 对 于 浏览 器 缓存 机 制 是 很 重要 的 ， 缓 人 存 机 制 会 试图 只 加 载 新 内 容 ， 而 从 本 地 源 查 
找 未 修改 的 旧 内 容 。 


Via (请 求 ， 啊 应 ) 


| Via: 1.1 varnish 


l Via: 1.1 www.spiegel.de, 1.0 lnxp-3960.srv.mediaways.net (squid/3.1.4) 





Via 和 server 类 似 ， 但 只 适用 于 HTTP 消 息 到 达 服 务 器 或 客户 端 所 经 过 的 代理 服务 器 和 了 网关。 每 个 代理 或 网 天 可 以 把 它 的 ID 加 到 这 个 标 头 字 
段 里 ， 这 个 ID 通常 是 协议 版 本 号 加 上 平台 类 型 或 域名 。 


WWW-Authenticate (响应 ) 


| WWW-Authenticate: Basic realm="r-datacollection" 


| WWW-Authenticate: Digest realm="r-datacollection" gop="auth" 
2 nonce="ecf88f261853fe08d58e2e903220dal4" 





WWW-Authenticate 要 求 客户 端 表明 自己 的 身份 ， 它 是 和 401 未 授权 状态 码 一 起 发 送 的 。 它 是 Authorization 请 求 标 头 字段 的 配对 字段 
WwW-Authenticate 标 头 字段 描述 了 确定 身份 的 方法 ， 以 及 该 身份 的 合法 “范围 ”， 还 有 身份 验证 所 需 的 更 多 参数 。 第 一 个 例子 要 求 进行 基本 
身份 验证 ， 而 第 二 个 例子 则 要 求 摘要 身份 验证 ， 这 种 验证 方式 能 确保 密码 不 会 被 代理 所 读 取 。 我 们 会 在 5.2.2 节 讲解 这 两 种 类 型 的 身份 验证 。 


[1] 如 果 你 想 学 习 更 多 传输 控制 协议 (TCP) 或 因特网 协议 (IP) 的 内 容 ，Fall 和 Stevens (2011) 以 及 Forouzan (2010) 的 相关 文献 都 提供 了 这 些 
主题 的 全 面 介 绍 。 如 需 更 容易 理解 的 介绍 材料 ， 可 以 访问 https://www.netbsd.org/docs/guide/en/chap-net-intro.html。 

2 注意， 我 们 仅仅 揭 开 了 客户 端 一 服务 器 通信 技术 的 冰山 一 角 。 如 果 你 需要 更 深入 了 解 其 后 的 技术 ,例如 ，DNS 服 务 器 是 如 何 联系 的 ， 我 们 建 
议 你 参阅 本 章 的 “延伸 阅读 ”部 分 。 

[3] 我 们 会 在 5.1.2 节 讨论 URL 的 结构 。 

4 我 们 会 在 后 面 的 内 容 中 更 深入 地 讲解 如 何 监控 HTTP 信 息 交 换 。 

[5] 为 了 展示 效果 ， 服 务 器 响应 有 一 些 行 被 略 去 了 。 

[6] 我 们 会 在 9.1.3 节 了 解 到 ， 从 网 站 采集 数据 最 简单 的 方式 往往 是 查看 和 操作 指向 目标 内 容 的 URL。 有 时 候 URL 会 遵循 一 个 简单 的 还 辑 ， 例 如 ， 
其 中 包含 了 一 个 连续 的 索引 。 这 样 就 很 容易 产生 一 套 URL， 可 以 自动 地 访问 并 保存 它们 的 内 容 。 

[7] 我 们 可 以 利用 类 似 http://whatismyipaddress.comyip-lookup 这 样 的 服务 来 查找 主机 名 对 应 的 IP 地 址 。 

[8] ”我 们 可 以 通过 声明 高 级 搜索 来 指定 额外 的 参数 。 要 全 面 了 解 其 全 貌 ， 请 参见 http://jwebnet.net/advancedgooglesearch.html。 例 子 里 的 tbs=qdr:y 
是 Google 搜 索 语法 中 的 一 个 参数 ， 具 体 使 用 方法 是 把 它 加 到 搜索 栏 URL 中 ， 而 不 是 直接 在 搜索 框 里 输入 。 如 果 前 面 已 经 有 了 其 他 参数 (如 例子 中 


&Jq=RCurl+ filetypenote_34Apdf) ， 则 需要 加 一 个 以 符号 把 它 和 前 面 的 参数 分 开 ) 。 上 面 例子 里 加 上 这 个 参数 的 URL 是 : 





https://www.google.com/seatch?q=RCurl+filetype:pdf&tbs=qdr:y 译 者 注 
[9] 回 车 和 换行 是 从 打字 机 传承 下 来 的 控制 字符 。 在 使 用 打字 机 的 时 候 ， 开 始 一 个 新 行 需要 把 滑动 托 架 移 回 左 侧 并 将 打字 盘 向 下 移动 一 行 。 
[10] 要 查看 这 些 类 型 的 全 集 ，IANA (互联 网 编号 分 配 机 构 ，Internet Assigned Numbers Authority) 提供 的 清单 见 


http://www.iana.org/assignments/media-types/media-types.xhtml。 


5.2 ”HTTP 的 高 级 特性 

迄今 为 止 ， 我 们 学 习 的 仪 仪 是 基于 HTTP 通 信 的 基本 知识 。 有 更 多 复杂 任务 需要 完成 的 功能 远 远 超 出 了 标准 HTTP 方 法 默认 设置 的 能 力 。 网 
络 用户 和 服务 器 维护 者 都 会 问 如 下 的 问题 : 

. 服务 器 如 何 能 识别 再 次 访问 的 用 户 ? 


“ 用 户 如 何 能 避免 被 识别 ? 


. 服务 器 和 客户 端 之 间 的 通信 各 何 能 超越 “无 状态 ”， 也 就 是 说 ， 它 们 如 何 能 记 住 并 依赖 于 之 前 的 会 话 ? 
-用户 如 何 能 安全 地 传输 和 访问 保密 内 容 ? 
. 用 户 如 何 能 查验 服务 器 端的 内 容 是 否 有 变化 ， 而 无 须 请 求 内 容 的 完整 正文 部 分 ? 


这 些 任务 有 很 多 是 可 以 直接 通过 HTTP 协 议 中 实现 的 手段 来 处 理 的 。 我 们 现在 要 重点 讲解 扩展 HTTP 基 本 功能 的 三 个 领域 。 第 一 个 包括 了 身 
份 识 别 的 问题 ， 这 对 于 个 性 化 的 网 络 体验 是 很 有 用 的 。 第 二 个 领域 涉及 不 同形 式 的 身份 验证 ， 它 有 助 于 让 服务 器 一 一 客户 端的 数据 交换 更 加 安 
全 。 第 三 个 领域 覆盖 了 特定 类 型 的 网 络 中 介 ， 也 融 是 客户 端 和 服务 器 之 间 的 中 间 人 ， 即 代理 服务 器 。 这 些 领 域 是 为 多 种 原因 (例如 ， 安 全 性 或 
效率 ) 而 实施 的 。 内 容 的 获取 有 时 会 依赖 于 这 些 高 级 特性 的 运用 ， 因 此 ， 关 于 它们 的 基本 知识 对 于 网 络 数据 采集 任务 往往 是 有 用 的 。 


为 了 展示 一 些 高 级 的 HTTP 请 求 ， 我 们 用 到 了 在 http://httpbin.org 上 的 服务 器 。 这 个 由 Kenneth Reitz 配 置 的 服务 器 为 HTTP 请 求 提供 了 一 
个 测试 环境 ， 它 会 返回 JSJON 编 码 的 内 容 。 这 对 于 在 把 HTTP 调 用 实施 到 生产 环境 之 前 进行 测试 是 很 有 用 的 。 我 们 利用 它 在 R 里 通过 RCurl 命 令 构 
造 一 些 对 服务 器 的 调用 ， 并 评估 它 返 回 的 消息 。 


再 进一步 ， 我 们 会 简单 介绍 RCurl 组 件 ， 通 过 例子 演示 一 些 HTTP 高 级 特性 。RCurl 提 供 了 把 R 用 作 Web 客 户 端 软件 的 手段 。 该 组 件 会 在 5.4 
节 中 进行 更 详细 的 介绍 。 


5.2.1 身份 识别 


客户 端 和 服务 器 之 间 通 过 HTTP 协 议 进行 的 通信 和 是 一 种 无 记忆 的 机 制 。 连 接 是 单独 为 每 个 会 话 建 立 并 关闭 的 ， 服 务 器 在 缺 省 情况 下 并 不 会 保 
持 同一 个 用 户 之 前 请 求 的 记录 。 不 过 ， 有 时 候 服 务 器 响应 需要 建立 在 以 往 对 话 结果 的 基础 上 。 例 如 ， 用户 会 希望 网 站 能 自动 使 用 他 们 的 语言 
字 ， 或 自动 调整 页 面 以 适 配 特 定 的 设备 或 操作 系统 。 此 外 ， 在 线 购物 网 站 的 客户 会 希望 能 把 物品 放 进 一 个 虚拟 的 购物 车 ， 然 后 继续 浏览 其 他 产 
品 ， 而 网 站 能 保留 这 些 操作 的 记录 。 除 了 这 些 改 进 用 户 体验 的 场景 ， 一 些 客户 端的 基本 知识 对 于 网 站 管理 员 也 是 很 有 意思 的 ， 比 如 ， 他 们 可 能 
会 想 知 道 他 们 网 页 最 大 的 访问 量 来 源 于 其 他 哪个 网 站 。 


HTTP 提 供 了 一 套 程序 可 以 用 于 这 些 目的 。 我 们 会 在 网 络 抓 取 的 背景 里 讨论 最 流行 和 最 相关 的 内 容 ， 即 基本 身份 识别 标 头 字 段 和 cookie。 
5.2.1.1 用 于 客户 尊 识 别 的 HTTP 标 头 字 段 


默认 情况 下 ， 现 代 Web 浏 览 器 在 向 服务 器 发 送 请 求 的 时 人 息 ， 会 把 基本 的 客户 端 识 别 信 息 放 在 HTTP 标 头 投递 。 这 个 信息 通常 不 足以 唯一 识别 
用 户 ， 但 是 能 够 改善 网 上 冲 溪 的 体验 。 此 外 ， 正 如 我 们 将 要 看 到 的 ， 在 某 些 情况 下 ， 请 求 并 非 来 自 浏 览 器 ， 而 是 来 目 一 个 抓 取 数据 的 脚本 程 
序 ， 如 一 个 R 程 序 ， 这 时 也 可 以 把 这 些 字 段 传递 给 服务 器 。 


User-Agent 标 头 字段 包含 了 有 天 在 客户 端 使 用 的 软件 的 信息 。 通 音 浏 览 器 会 投递 类 似 下 面 的 User-Agent 标 头 字段 : 


l GET /headers HTTP/1.1 

2 Host: httpbin.org 

3 User-Agent: Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.36 
(KHTML, like Gecko) Chrome/31.0.1650.57 Safari/537.36 





HERRA BS SAMS SEAT: kh hChromeniWASSEH, SUYABSHRZN31.0.1650.57, YESS "Mozilla 
A" 的 (这 个 没什么 值得 深究 的 ) ， 运 行 在 一 个 Windows 系 统 上 ， 还 利用 了 webkit。( 1 这 些 信息 不 足以 唯一 识别 用 户 。 但 是 它们 仍然 起 了 重要 
作用 : 它们 让 网 页 设计 师 能 发 送 适 应 客户 端 软 件 的 内 容 。 


时 然 对 于 网 络 抓 取 用 途 而 言 ， 页 面 布 局 是 否 合适 其 实 天 系 不 大 ， 但 我 们 可 以 通过 在 User-Agent 字 段 提 供 和 我 们 用 于 抓 取 的 软件 相 天 的 信 
息 ， 让 我 们 的 工作 尽 可 能 透明 化 。 从 技术 角度 而 言 ， 我 们 可 以 在 这 个 标 头 字段 放 进 去 任何 字符 串 。 一 个 既 有 用 又 方便 的 方法 是 提供 当前 的 R 版 本 
号 和 运行 R 的 平台 。 这 样 ， 在 交互 男 一 端的 网 络 管 理 员 就 能 了 解 是 何 种 程序 向 服务 器 提出 了 一 系列 的 请 求 。 下 面 的 命令 返回 当前 的 R 版 本 号 和 相 
应 的 平谷 : 


Dll 


R> R.versionSversion.string 
[1] "R version 3.0.2 (2013-09-25)" 


R> R.versionSplatform 
[1] "x86 64-w64-mingw32" 


我 们 可 以 使 用 这 个 字符 串 来 配置 一 个 GET 请 求 ， 并 用 RCurl 组 件 的 getURL () 遂 数 来 执行 它 : 


R> cat (getURL("http://httpbin.org/headers", 
useragent = str _c(R.version$platform, 
R.versionSversion.string, 
sep=", 7) ) ) 


{ 


"headers": { 
"X-Request-Id": "0726a0cf-a26a-43b9-b5a4-9578d0be712b", 
"User-Agent": "x86 64-w64-mingw32, R version 3.0.2 (2013-09-25)", 
"Connection": "close", 
“Accept™: "*/**", 
"HOSE": *"htepbin.org” 


上 例 中 的 cat O 用 于 串 接 并 输出 占 多 行 的 结果 。useragent 参 数 支持 指定 一 个 User-Agent 标 头 字段 字符 串 。RCur| 负 责 把 这 个 字符 串 写 进 
标 头 字 段 并 传递 给 服务 器 。http://httpbin.org/headers 会 以 JSON 格 式 返 回 发 送 的 标 头 信息 。 上 9 这 次 ， 除 了 缺 省 使 用 的 一 组 标 头 字段 ， 我 们 发 
现 里 面 还 加 入 了 一 个 User-Agent 标 头 字 段 。D| 


我 们 会 在 后 续 章 节 了 解 到 ，RCur| 组 件 的 基础 是 libcurl 这 个 C 语 言 库 。libcur|l 提 供 的 很 多 选项 也 能 用 于 Rcur| 的 高 级 函数 中 (更 多 细节 参见 
5.4.1 节 ) 。 我 们 会 在 9.3.3 节 再 讲解 实际 网 络 抓 取 工作 中 User-Agent 的 用 法 。 


第 二 个 天 于 客户 端 信息 的 标 头 字段 是 Referer (访问 来 源 ) 。 它 存放 的 是 把 用 户 引 导 到 当前 页 的 页 面 。 访 问 来 源 可 以 用 于 流量 评估 ， 即 分 析 
某 个 站 点 的 访问 者 来 源 。 它 的 男 一 个 用 处 是 可 以 限制 访问 特定 的 服务 器 内 容 ， 如 图 片 文件 。 网 站 管理 员 可 以 修改 服务 器 的 设置 ， 使 对 图 片 的 访 
问 只 能 来 自 于 另 一 个 服务 器 上 的 资源 ， 这 样 可 以 防止 其 他 人 通过 引用 源 服务 器 位 置 的 方式 把 这 些 图 片 用 在 他 们 上 自己 的 网 页 上 。 这 种 方式 会 市 来 
源 网 站 不 希望 的 流量 ， 因 而 是 不 受 欢 迎 的 行为 。 浏 览 器 的 默认 设置 是 自动 友 送 Referer 标 头 。 例 子 如 下 所 示 : 


GET /headers HTTP/1.1 
Host: httpbin.org 


a N = 


Referer: http://www.r-datacollection.com/ 





我 们 可 以 在 R 里 用 getURL () 的 referer 参 数 提供 Referer 标 头 字 段 。 我 们 用 如 下 语句 测试 对 http://httpbin.org/headers 的 请 求 : 和 内 


R> getURL("http://httpbin.org/headers", referer = "http://www.r- 
datacollection.com/") 


注意 ， 当 R 实 际 上 并 不 是 从 指定 站 点 引导 的 情况 下 ， 从 R 里 向 Referer 增 加 相关 信息 是 误导 性 的 。 我 们 建议 ， 如 果 有 必要 提供 合法 的 访问 来 源 
以 便 访问 特定 资源 ， 要 提供 真实 可 辨认 的 身份 信息 ， 例 如 ， 在 From 标 头 字 段 作 类 似 下 例 中 的 声明 ， 如 果 有 疑问 束 要 联系 网 站 管理 员 。 在 
Referer 标 头 字 段 提供 虚假 信息 来 隐瞒 访问 请 求 来 源 的 行为 被 称 为 访问 来 源 欺 诈 。 这 种 做 法 对 于 保护 数据 隐私 的 目的 也 许 有 其 合理 性 ,但 从 数据 
抓 取 的 礼节 角度 是 不 值得 鼓励 的 〈 详 见 9.3.3 节 ) 。 


用 于 客户 端 身份 识别 的 From 标 头 字 段 并 不 是 由 浏 昂 器 友 出 的 ， 而 是 来 自行 为 规范 的 网 络 季 虫 和 机 器 人 提供 的 便利 标 头 。 它 带 有 用 户 的 邮件 
地 址 ， 让 网 站 管理 员 能 够 确定 用 户 的 身份 。 对 于 网 络 抓 取 工 作 ， 在 From 标 头 字 段 声明 一 个 合法 的 电子 邮件 地 址 是 一 个 好 的 做 法 ， 如 下 所 示 : 


GET /headers HTTP/1.1 
Host: httpbin.org 


From: eddie@r-datacollection.com 





提供 详细 的 联系 方式 表达 了 善意 的 目的 ， 让 网 站 管理 员 在 发 现 他 们 网 站 上 的 异常 流量 特征 时 能 和 用 户 取 得 联系 。 因 此 我 们 重新 组 织 的 请 求 
如 下 : 


R> getURL("http://httpbin.org/headers", httpheader = c(From = 
"eddie@r-collection.com") ) 


注意 ， 我 们 在 此 必须 使 用 httpheader 选 项 来 加 入 From 标 头 字 段 ， 因 为 from 不 是 一 个 合法 选项 ， 例 如 ， 相 对 于 “referer” 而 言 。 
httpheaderi 上 我 们 可 以 声明 其 他 额外 的 标 头 字 段 。 


5.2.1.2 cookie 


cookie 用 来 保持 用 户 在 服务 器 端的 身份 识别 信息 。 它 是 一 个 工具 ， 能 让 无 状态 的 HTTP 通 信 变 成 有 状态 的 会 话 ， 这 样 ， 未 来 的 响应 就 能 取决 
于 过 去 的 对 话 情 况 。cookie 的 工作 原理 如 下 : Web 服 务 器 在 cookie 里 保存 一 个 唯一 的 会 话 ID， 这 个 cookie 会 存放 在 客户 端的 本 地 硬盘 里 ， 通 常 
放 在 一 个 文本 文件 中 。 下 一 次 浏览 器 向 同一 个 Web 服 务 器 发 送 HTTP 请 求 的 时 候 ， 它 会 查找 已 保存 的 cookie 中 是 否 有 属于 该 服务 器 的 ， 如 果 能 
找到 ， 就 把 找到 的 cookie 信 息 加 入 请 求 之 中 。 服 务 器 收 到 请 求 后 ， 就 会 根据 cookie 进 行 “ 我 们 以 前 见 过 ”的 信息 处 理 并 相应 地 调整 它 的 响应 。 
通常 ， 通 过 多 次 会 话 的 过 程 ， 有 关 用 户 的 更 多 信息 已 经 保存 在 服务 器 上 了 ， 可 以 通过 cookie 来 “再 次 激活 ”这 些 信息 。 换 言 之 ，cookie 能 够 让 
浏览 器 和 服务 器 继续 以 往 进 行 的 会 话 过 程 。 


cookie 通 过 HTTP 标 头 字段 “Set-Cookie” (在 响应 标 头 内 ) 和 “Cookie” (在 请 求 标 头 内 ) 进行 共享 。 一 个 通过 HTTP 进 行 并 产生 


cookie 交 换 的 典型 会 话 如 下 所 示 。 首 先 ， 客 尸 端 向 Web 服 务 器 提出 一 个 请 求 : 


I GET /headers HTTP/1.1 
Host: httpbin.org 


th 





如 果 请 求 成 功 ， 服 务 器 会 响应 请 求 并 在 Set-Cookie 标 头 字段 返回 cookie。 该 字段 提供 了 一 组 “名 字 - 取 什 ” 的 配对 : 


HTTP/1.1 200 OK 
Set-cookie: id="12345"; domain="httpbin.org" 





id 属 性 让 服务 器 能 够 在 随后 的 请 求 中 识别 用 户 ，domain 属 性 则 说 明了 该 cookie 和 那个 域名 关联 。 客 户 端 会 保存 cookie 并 把 它 附加 到 未 来 对 
同一 个 域名 的 请 求 中 ， 这 是 通过 利用 cookie 请 求 标 头 字段 来 进行 的 : 


GET /headers HTTP/1.1 
Host: httpbin.org 


w N ë = 


Cookie: id="12345" 





从 持久 化 和 范围 的 方面 来 看 ， 有 几 种 不 同类 型 的 cookie。Session cookies (会 话 cookie) 是 在 用 户 访问 网 站 时 才 保持 在 内 存 中 的 ， 当 浏览 
器 关闭 的 时 候 它们 就 会 马上 被 删除 。Persistent cookies (持久 化 cookie) 或 者 叫 追踪 cookie 保 存 的 时 间 就 更 长 : 它们 的 生命 期 是 由 max-age 
属性 或 expires 属 性 的 值 定义 的 (上 面 的 例子 中 没有 展示 ) 。 在 cookie 的 生命 期 里 ， 浏 览 器 的 每 次 请 求 都 会 友 送 该 cookie， 这 让 用 户 在 多 次 会 话 
中 对 于 服务 器 都 是 可 奶 踩 的 。Third-party cookies (第 三 方 cookie) 则 是 用 于 在 不 同 站 点 之 间 提 供 个 性 化 的 内 容 。 它 们 不 属于 客户 端 访问 的 
域 ， 而 是 另外 一 个 域 。 如 果 你 曾经 惊讶 于 在 你 访问 的 网 页 上 怎么 会 出 现 个 性 化 的 小 广告 ， 这 就 最 有 可 能 是 通过 第 三 方 cookie 实 现 的 ， 这 些 


cookie 是 由 广告 公司 放 在 你 访问 的 域 中 的 ， 可 以 被 广告 商用 来 根据 你 的 兴趣 定制 广告 内 容 。cookie 用 于 这 种 目的 确实 造成 了 一 种 不 好 的 现象 ， 
让 cookie 在 隐私 保护 方面 留 下 恶名 。 但 已 体 而 言 ，cookie 只 会 友和 送 给 创建 它们 的 服务 器 。 此 外 ， 用 户 可 以 决定 如 何 处 理 本 地 存放 的 cookie。 最 
后 ，cookie 是 有 用 的 ， 因 为 它们 往往 能 大 大 改善 网 络 浏览 的 体验 。 


既然 cookie 能 影响 服务 器 响应 请 求 时 返回 的 内 容 ， 那 么 它们 和 网 络 抓 取 的 目的 也 是 紧密 相关 的 。 假 定 我 们 在 一 个 在 线 商 店 里 ， 和 希望 从 满 满 


的 购物 车 中 抓 取信 息 。 在 我 们 访问 在 线 商 店 的 过 程 中 ， 我 们 在 购物 车 里 加 入 了 一 些 产 品 。 为 了 追 味 我 们 的 疯狂 购物 ， 服 务 器 在 一 个 cookie 里 保 
仓 了 一 个 会 话 ID， 以 便 保持 我 们 的 身份 识别 信息 。 如 果 我 们 需要 请 求 列 出 购物 清单 的 网 页 ， 我 们 就 必须 在 请 求 中 发 送 该 cookie。 


为 了 在 R 中 发 送 已 有 的 cookie， 我 们 可 以 利用 cookie 参 数 : 


R> getURL("http://httpbin.org/headers", cookie = "id=12345;domain= 
httpbin.org") 
通常 我 们 不 提倡 手工 管理 cookie， 也 就 是 手工 查找 、 保 存 和 发 送 。 这 就 是 浏览 器 在 默认 情况 下 会 自动 处 理 这 类 操作 的 原因 。 


为 了 在 R 中 达到 相似 的 便利 程度 ， 我 们 可 以 依赖 libcurl 的 cookiefile 和 cookiejar 选 项 ， 在 正确 声明 的 情况 下 ， 它 们 可 以 帮 我 们 管理 cookie。 
我 们 会 在 9.1.8 书 详细 讲解 如 何 做 到 这 一 点。 


5.2.2 身份 验证 


里 然 客户 端 身 份 识 别 的 技术 有 助 于 实现 个 性 化 网 页 内 容 和 有 状态 的 通信 ， 但 是 对 于 只 有 特定 用 户 可 见 内 容 的 保护 ， 它 们 还 是 不 适用 。 有 一 
套 身份 验证 技术 能 实现 对 保密 内 容 的 受 限 访问 。 这 些 技术 中 有 一 些 是 HTTP 协 议 的 一 部 分 。 其 他 技术 ， 如 OpenlD 或 OAuth (参见 9.1.11 节 ) , 
则 是 近期 才 开 发 出 来 的 ， 它 们 扩展 了 网 络 上 的 身份 验证 功能 。 

通过 HTTP 协 议 进行 的 最 简单 的 身份 验证 形式 是 基本 身份 验证 (basic authentication， 参 见 Franks et al.1999) 。 当 客户 端 请 求 了 一 个 在 
基本 身份 验证 保护 下 的 资源 时 ， 服 务 器 会 发 回 一 个 包含 了 7 了 WWW-Authenticate 标 头 的 响应 。 为 了 获取 访问 该 资源 的 许可 ， 客 户 端 必须 重复 它 的 
请 求 ， 并 带 上 一 个 用 户 名 和 密码 。 用 户 名 和 密码 都 存放 在 请 求 的 Authorization 标 头 。 如 果 服 务 器 能 够 验证 该 用 户 名 /密码 的 组 合 是 正确 的 ， 它 


就 会 在 一 个 HTTP 200 消 息 Pl 中 返回 请 求 的 资源 。 从 技术 角度 看 ， 基 本 身份 验证 过 程 如 下 所 示 : 


1) 客户 端 请 求 一 个 受 保护 的 资源 : 


| GET /basic-auth/user/passwd HTTP/1.1 


2) 服务 器 要 求 客 户 端 提供 用 户 名 和 密码 : 


l HTTP/1.1 401 Authorization required 
WWW-Authenticate: Basic realm="Protected area" 


ht 





3) 客 尸 端 / 用 户 以 Base64 编 码 提供 服务 器 要 求 的 用 尸 名 和 密码 : 


| GET /basic-auth/user/passwd HTTP/1.1 


Authorization: Basic dXNlcm5hbWU6cGFzc3dvcmQ= 





4) 服务 器 返回 所 请 求 的 资源 : 


| HTTP/1.1 200 OK 





注意 ， 在 第 三 步 ， 用 户 名 /密码 的 组 合 被 自动 “加 密 ” 为 字符 串 序列 “dXNIcm5hbWU 6cGFzc3dvcmQ=”。 这 个 转换 是 通过 Base64 编 码 
来 进行 的 。Base64 编 码 实 际 上 并 不 是 一 种 加 密 技术 ， 而 是 遵循 了 一 套 比 较 普 通 固定 的 模式 (参见 Gourley and Totty2002, Appendix E) 。 我 
们 可 以 用 R 进 行 Base64 的 编码 和 解码 ; 在 RCur| 组 件 里 实现 了 必要 的 冰 数 : 


R> (secret <- base64 ("This is a secret message") ) 
[1] "VGhpcyBpcyBhIHN1Y3J1dCBt ZXNzYWd1" 
attr(. "OCL BS") 

[1] "base64" 


R> base64Decode (secret) 
[1] "This is a secret message" 


上 面 的 例子 揭示 了 基本 HTTP 身 份 验证 的 不 安全 性 : 只 要 是 通过 标准 HTTP 协 议 ， 敏 感 信息 实际 上 是 以 未 加 密 的 方式 在 网 络 上 传送 的 。 
此 ， 基 本 身份 验证 方式 只 应 该 和 HTTPS (参见 5.3.1 节 ) 配合 使 用 。 


更 精妙 的 一 种 身份 验证 技术 是 摘要 身份 验证 (Franks et al.1999) 。 摘 要 身份 验证 背后 的 思想 是 永远 不 要 在 网 络 上 传送 密码 ， 而 只 是 通过 
它 的 一 个 “摘要 ”来 验证 用 户 身 份 。 服 务 器 会 在 它 的 响应 上 附 市 一 小 段 随机 字符 串 ， 称 为 Nonce。 浏 兄 器 把 用 户 名 、 密 码 和 nonce 和 转换 为 一 个 
哈 希 码 ， 转 换 过 程 是 依据 服务 器 和 客户 端 都 了 解 的 多 个 算法 其 中 之 一 来 进行 的 。 然 后 这 个 哈 希 码 会 被 发 送 回 去 ， 与 服务 器 端 计 算 的 哈 希 码 进 行 
比较 ， 如 果 两 者 匹配 ， 服 务 器 就 会 许可 客户 端的 访问 。 这 里 的 关键 点 在 于 ， 单 独 用 哈 希 码 并 不 足以 了 解 天 于 密码 的 任何 信息 ; 它 只 是 密码 的 一 
个 “摘要 ”。 这 种 思路 让 摘要 身份 认证 比 基 本 身份 认证 更 为 改善 ， 因 为 加 密 的 客 尸 端 消 息 对 于 侦 听 者 是 无 法 理解 的 。 


在 摘要 身份 验证 过 程 中 ， 前 面 身份 验证 程序 里 的 步骤 2 和 步骤 3 略 有 不 同 。 服 务 器 返回 的 是 如 下 响应 : [| 


2a) 服务 器 要 求 客户 端 提 供用 户 名 和 密码 ， 并 上 友 送 一 个 nonce， 报 告 一 个 “ 受 保护 的 质量 ” 1B (qop) ， 并 将 区 域 (realm) 描述 为 “ 受 保 
护 区 域 ” (Protected area) : 


HTTP/1.1 401 Authorization required 
WWW-Authenticate: Digest realm="Protected area", 


Ww N — 


gop="auth",nonce="f7hf4xu8n2kxuujnszrctx4fexqnahopjdrn4zbi" 





3a) 客户 端 在 response 属 性 里 提供 加 密 的 用 户 名 和 密码 ， 以 及 未 加 密 的 用 户 名 、dqop 和 monce 人 参数 、 还 有 一 个 客户 端 nonce (cnonce) : 


l GET /basic-auth/user/passwd HTTP/1.1 
Authorization: Digest username="user", nonce=" 


N 


f7hf4xu8n2kxuujnszrctx4fexqnahopjdrn4zbi", qop="auth", 
cnonce="1g443t8b", response=" 
yilh5buafdsda8r2wsxdylvxzhgnht5ngry2m5argc" 





在 9.1.6 节 会 给 出 一 个 实际 运用 RCurl 进 行 HTTP 身 份 验证 的 简短 演示 。 
S23 Toe 


网 络 代理 服务 器 简称 代理 ， 是 在 客户 端 和 其 他 服务 器 之 间作 为 中 介 的 服务 器 。 来 自 客户 端的 HTTP 请 求 首 先 会 友 送 到 一 个 代理 ， 由 代理 分 析 
该 请 求 并 转 友 给 目标 服务 器 。 服 务 器 响应 也 会 通过 代理 确定 路 由 。 从 这 个 意义 上 说 ， 代 理 的 角色 是 客户 闯 的 服务 器 ， 也 是 其 他 服务 器 的 客户 端 


(参见 


图 5-4) 。 
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图 5-4 网络 代理 的 工作 原理 
代理 有 多 种 用 途 。 它 们 是 为 了 性 能 、 经 济 和 安全 等 而 部 署 的 。 对 于 用 户 来 说 ， 代 理 可 以 在 以 下 方面 提供 帮助 : 
. 提升 网 络 的 速度 。 
` 在 网 络 上 保持 匿名 。 
: 访问 某 些 只 允许 特定 位 置 的 了 地 址 访问 的 站 点 。 
: 访问 某 些 请 求 来 源 国家 已 封杀 的 网 站 。 
. 在 封杀 了 的 网 站 继续 查找 资源 ， 这 些 网 站 阻止 了 来 自我 们 所 用 IP 地 址 的 请 求 。 


特别 是 当 在 最 后 三 种 原因 下 使 用 代理 的 时 候 ， 网 络 抓 取 工作 有 可 能 会 在 法 律 方面 遇 到 有 麻烦。 从 近期 的 一 些 法 庭 判决 的 风向 来 看 ， 利 用 代理 
服务 器 访问 自己 被 禁止 访问 的 公共 网 站 是 一 种 非法 行为 (参见 Kerr 2013) 。 因 此 ， 我 们 不 推荐 把 代理 用 于 任何 这 类 用 途 。 


为 了 通过 代理 服务 器 建立 连接 ， 我 们 必须 知道 代理 的 IP 地 址 和 端口 号 。 某 些 代理 也 会 要 求 身份 验证 ， 也 就 是 说 ， 需 要 一 个 用 户 名 和 密码 。 
有 很 多 网 上 的 服务 提供 了 有 关 开 放免 费 代理 的 庞大 数据 库 ， 包 括 它们 的 地 址 和 规格 。 开 放 代 理 可 以 让 任何 知道 它们 的 地 址 和 端口 号 的 人 们 使 
用 。 注 意 ， 代 理 为 用 户 提供 匿名 能 力 的 程度 是 各 不 相同 的 。 透 明代 理 (transparent proxies) 会 在 它们 给 服务 器 的 请 求 中 声明 一 个 Via 标 头 字 
段 ， 在 里 面 填写 它们 自己 的 IP 地 址 。 此 外 ， 它 们 提供 了 一 个 市 有 你 的 iP 地址 的 X-Forwarded-For 标 头 字 段 。 简 单 匿 名 代理 (simple 
anonymous proxies) 会 把 Via 和 X-Forwarded-For 标 头 字段 都 蔡 换 为 它们 的 IP 地 址 。 由 于 这 两 个 字段 都 是 在 使 用 代理 的 情况 下 才 会 友 送 的 ， 
所 以 服务 器 会 知道 这 个 请 求 来 自 一 个 服务 器 ， 但 并 不 容易 看 到 后 面 的 客户 端 IP 地 址 。 其 骗 性 代理 (distorting proxies) 和 前 面 类 似 ， 但 会 把 X- 
Forwarded-For 标 头 字 段 的 值 蔡 换 为 一 个 随机 的 IP 地 址 。 最 后 ， 高 匿名 度 代理 (high anonymity proxies) 或 者 黑客 精 严 代理 (elite 
proxies) 的 表现 像 普通 客户 端 ， 也 就 是 说 ， 它 们 不 会 提供 Via 或 X-Forwarded-For 标 头 字 段 ， 而 只 是 给 出 它们 的 IP 地 址 ， 因 而 无 法 直接 识别 为 
代理 服务 器 。 


要 用 R 通 过 代理 向 服务 器 发 送 一 个 请 求 ， 我 们 可 以 把 proxy 参 数 加 入 请 求 命令 中 。 如 下 所 示 ， 我 们 选择 了 一 个 虚构 的 代理 ， 它 来 自 波兰 , A 
有 的 IP 地 址 为 109.205.54.112， 并 在 监听 8080 痛 口 : 


R> getURL("http://httpbin.org/headers", 
R> proxy = "109.205.54.112:8080", 
R> followlocation = TRUE) 


代理 的 IP 地 址 和 端口 号 是 在 proxy 选 项 中 声明 的 。 此 外 ， 我 们 还 设置 followlocation 参 数 为 TRUE， 以 确保 我 们 会 被 重 定 向 到 想 要 的 资源 
E; 


[1] 如 果 你 想 了 解 你 的 默认 浏览 器 的 User-Agent， 把 向 http://httpbin.org/uset-agent 网 站 发 送 请 求 返 回 的 User-Agent 值 字符 串 复 制 下 来 并 粘贴 到 
http://useragentstting.com 的 ‘Analyze ”表单 里 试 试 。 

[2] 注意 ， 我 们 使 用 cat0 函 数 串 接 并 显示 返回 的 JSON 字 符 串 。 

[3] 我 们 不 需要 关心 X-Request-Id 和 Hetoku-Request-Id 标 头 字 段 ， 它 们 是 http://httpbin.otfg 上 的 服务 加 入 的 ， 用 于 调试 目的 。 

[4] 从 现在 起 ， 我 们 不 再 显示 JSON 输 出 
[5] 即 状 态 码 为 200 的 消息 。 





你 可 以 在 R 控 制 台 加 载 RCurl 组 件 并 粘贴 上 述 命 令 ， 就 很 容易 看 到 返回 的 内 容 。 





译 者 注 


[6] 注意 ， 这 里 是 一 个 简化 的 例子 。 我 们 略 去 了 一 些 中 间 步 又 ， 但 是 基础 逻辑 是 一 样 的 。 


5.3 ”HTTP 之 外 的 协议 


互联 网 上 数据 传输 的 协议 远 远 不 止 HTTP 一 个 。 要 了 解 RCurl 组 件 广 持 协 议 的 概 狗 ， 我 们 可 以 利用 如 下 命令 : 


R library (RCur1) 

R> curlVersion()Sprotocols 
[1] "Cec "DED" "telnet" "dict" I ldap" "ldaps" "ee 
[8] "File" Geena” "EEDE" "E "BLED" 


FEI, FEAT SEBO ARAA. TA, RAER EANES AAAA R R AEI : 
HTTPS 和 FTP。 


5.3.1 HTTP 安 全 协议 


严格 地 说 ， 超 文本 传输 协议 安全 版 (Hypertext Transfer Protocol Secure, HTTPS) 本 身 并 不 是 一 个 协议 ， 而 是 HTTP 协 议和 SSL/TLS 协 
议 (安全 套 接 字 层 / 传 输 安全 层 ，Secure Sockets Layer/Transport Security Layer) 的 组 合 。HTTPS 在 涉及 敏感 数据 传输 的 情况 下 (如 银行 或 
在 线 购物 的 业务 ) 是 不 可 或 缺 的 。 要 传输 资金 或 信用 卡 信息 ， 我 们 需要 确保 这 些 信息 对 于 第 三 方 是 不 可 访问 的 。HTTPS 会 把 所 有 客户 端 一 服务 
器 的 通信 进行 加 密 (参见 图 5-5) 。HTTPS 的 URL 使 用 https 模 式 ， 并 默认 使 用 443 端 口 。[1 
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图 5-5 ”HTTPS 协 议 的 原理 


HTTPS 有 两 个 用 途 。 第 一 ， 它 帮助 客户 端 确保 对 话 的 服务 器 是 可 信 的 (服务 器 身份 验证 ) 。 第 二 ， 它 提供 了 客户 端 一 服务 器 通信 的 加 
密 ， 从 而 让 用 户 能 够 确信 其 他 人 无 法 获取 通信 过 程 中 交换 的 内 容 。 


SSL/TLS 安 全 层 是 作为 HTTP 运 行 的 应 用 层 的 一 个 子 层 来 运行 的 。 这 意味 着 HTTP 消 息 会 在 被 传输 之 前 进行 加 密 。SSL 协 议 在 1994 年 由 
Netscape REX. (参见 Freier et al.2011) ， 并 在 1999 年 更 新 为 TLS 1.0 (参见 Dierks and Allen 1999) 。 当 后 面 使 用 “SSL” 这 个 术语 时 ， 
指 的 是 SSL 和 TLS 两 者 ， 它 们 的 差异 对 于 我 们 来 说 并 不 重要 。 


SSL 的 一 个 重要 特性 是 公 钥 (或 者 叫 非 对 称 ) 加 密 ， 它 让 在 不 安全 网 络 中 进行 安全 通信 成 为 可 能 。 顾 名 思 义 ， 加 密 的 密 钥 实际 上 并 不 是 保密 
的 ,而 是 任何 人 都 可 以 获得 。 为 了 加 密 一 条 给 特定 接收 者 的 消息 ， 殊 会 用 到 接收 者 的 公 钥 。 而 要 解密 这 条 消息 ， 束 既 要 用 到 公 钥 也 要 用 到 私 
钥 ， 而 私 钥 只 有 接收 者 知道 。 这 里 的 基本 思路 是 ， 当 一 个 客户 端 希 望 向 服务 器 友 送 一 条 保密 消息 时 ， 它 知道 如 何 给 消息 加 密 ， 因 为 服务 器 的 公 
钥 是 已 知 的。 不 过 ， 在 加 密 之 后 ， 除 了 接收 者 之 外 的 任何 人 一 一 甚至 包括 发 送 者 在 内 一 一 都 无 法 破译 这 条 消息 ， 因 为 只 有 接收 者 才 会 兼 有 公 钥 
和 私 钥 。 


要 了 解 HTTPS 的 用 途 ， 我 们 不 必 深 入 钻研 公 钥 加 密 、 密 码 算 法 工作 原理 和 它 难 以 破解 的 原因 等 细节 问题 。 要 想 了 解 SSL 背 后 的 密码 学 知识 ， 
我 们 推荐 学 习 Gourley 和 Totty (2002) 以 及 Garfinkel (2002) 的 优秀 教程 。 如 果 你 想 更 深入 理解 数字 密码 学 ，Ferguson et al. (2010) 以 及 


Paar 和 Pelzl (2011) 的 这 两 本 书 会 是 很 好 的 选择 。 不 过 ， 对 本 书 内 容 而 言 ， 值 得 了 解 的 是 客户 端 和 服务 器 之 间 的 安全 通道 实际 上 是 如 何 建立 起 
来 的 ， 以 及 在 R 里 如 何 实现 。 下 面 就 是 一 个 极其 简化 的 “SSL 握 手 ”模式 ， 也 就 是 客户 端 和 服务 器 在 实际 交换 加 密 的 HTTP 消 息 之 前 ， 关 于 建立 
HTTPS 连 接 的 协商 (参见 Gourley and Totty 2002, pp.322-328) 。 


1) 客户 端 通 过 443 端 口 建立 到 服务 器 的 TCP 连 接 ， 并 发 送 关 于 SSL 版 本 和 加 密 设置 的 信息 。 


2) 服务 器 发 回 天 于 SSL 和 加 密 设 置 的 信息 。 服 务 器 也 会 通过 发 送 一 个 证 书 来 证 实 其 身份 。 该 证 书包 括 了 关于 发 证 机 构 、 持 证 者 及 有 效 期 等 
信息 。 由 于 任何 人 不 用 太 费 力 就 能 自己 创建 一 套 证 书 ， 所 以 可 信 的 发 证 机 构 (Certificate Authority, CA) 的 数字 签名 是 非常 重要 的 。 现 在 有 
很 多 商业 化 的 CA， 但 是 某 些 证 书 提 供 商 也 会 免费 发 放 证 书 。 


3) 客户 端 判断 是 否 信任 该 证 书 。 浏 览 器 和 操作 系统 都 会 内 置 有 可 信友 证 机 构 的 清单 。 如 果 签 友 服 务 器 证 书 的 机 构 是 可 信 机 构 其 中 之 一 ， 客 
尸 端 束 认 为 该 服务 器 是 可 信和 有 的。 人 否则， 浏览 器 会 询问 用 户 是 信任 该 服务 器 并 继续 通信 ， 还 是 应 该 停止 通信 。 


4) 通过 使 用 该 HTTPS 服 务 器 的 公 钥 ， 客 户 端 创建 了 一 个 只 有 该 服务 器 能 够 读 取 的 会 话 秘 钥 ， 并 发 送 给 服务 器 。 
5) 服务 器 解密 会 话 秘 钥 。 


6) 现在 ， 客 户 端 和 服务 器 都 拿 到 了 会 话 密 铀 。 因 此 ， 关 于 该 秘 钥 的 知识 不 再 是 非 对 称 的 ， 而 是 对 称 的 。 这 降低 了 加 密 所 需 的 计算 成 本 。 之 
后 在 服务 器 和 客户 端 之 间 来 回 传输 的 数据 融 可 以 通过 这 个 对 称 的 SSL 通 道 进行 加 密 和 解密 了 。 


请 注意 很 重要 的 一 点 ，SSL 保 护 的 是 通信 的 内 容 。 这 包括 HTTP 标 头 、cookie 和 正文 。 不 过 ， 不 受 保 护 的 是 IP 地 址 ， 也 就 是 和 客户 端 进行 通 
信 的 网 站 。 


我 们 会 在 9.1.7 节 讨论 在 R 里 如 何 建 立 通 过 HTTPS 的 连接 ， 以 及 个 别 函 数 背 后 隐藏 的 技术 细节 ， 在 R 里 运用 HTTPs 一 点 也 不 难 。 
S32 FIP 


文件 传输 协议 (File Transfer Protocol, FTP) 是 为 文件 传输 以 及 文件 目录 管理 制定 的 ， 文 件 传输 包括 从 客户 端 向 服务 器 (上 传 ) 和 从 服 
务 器 向 客户 端 (下 载 ) 。FTP 于 1971 年 由 Abhay Bhushan (1971) 首次 提出 ; 它 的 当前 规格 说 明 (参见 Postel and Reynolds 1985) 也 有 差 
不 多 30 年 历史 了 。 原 则 上 说 ，HTTP 比 FTP 有 几 个 优势 。 它 能 够 支持 持久 的 连接 ， 也 就 是 说 ， 客 户 端 和 服务 器 之 间 的 连接 在 多 次 传输 过 程 中 可 以 
保持 。 这 对 于 FTP 是 不 可 能 的 ， 它 的 连接 必须 在 每 次 传输 之 后 重新 建立 。 此 外 ， 原 生 FTP 不 支持 代理 和 流水 线 ， 即 在 接收 到 回复 之 前 发 出 多 个 同 
步 请 求 。FTP 也 有 好 的 一 面 ， 它 在 特定 情况 下 速度 更 快 ， 因 为 它 不 像 HTTP 那 样 带 有 一 些 标 头 字 段 ， 而 是 仅 仪 传输 二 进 制 或 ASCII 文 件 。 


FTP 在 通信 两 端 各 使 用 两 个 端口 ， 一 个 用 于 数据 交换 ( 即 “ 数 据 端口 ”， 默 认 是 20 端 口 ) ， 一 个 用 于 命令 交换 ( 即 “ 控 制 端 口 ”， 默 认 是 
21 端 口 ) 。 和 HTTP 类 似 ，FTP 也 有 一 套 命令 用 来 声明 传输 哪些 文件 、 创 建 什么 目录 ， 以 及 其 他 很 多 操作 。! 人 FTP 连 接 可 以 通过 两 种 不 同 模式 建 
WZ: 主动 模式 和 被 动 模式 。 在 主动 FTP 模 式 下 ， 客 己 端 连接 到 服务 器 的 命令 端口 ， 并 请 求 男 一 个 端口 的 数据 传输 。 这 种 模式 的 问题 是 ， 实 际 数据 
连接 是 由 服务 器 建立 的 。 由 于 客户 端的 防火 墙 并 不 知道 客户 端 在 等 待 数据 从 特定 端口 进来 ， 它 通常 会 阻挡 服务 器 试图 友 送 过 来 的 数据 。 这 个 间 
题 可 以 用 被 动 模式 解决 ， 在 这 种 模式 下 ， 客 尸 端 会 初始 化 命令 和 数据 连接 。 我 们 会 在 9.1.2 节 演示 如 何在 R 里 访问 FTP 服 务 器 。 


1] 回顾 一 下 ， 上 默认 的 HITP 端 口号 是 80。 


2] 要 了 解 现 有 命令 的 概括 ， 请 参阅 http://www.nsftools.com/tips/RawFTP.htm。 


54 ”HTTP 实战 


我 们 现在 来 学 习 使 用 R 作 为 HTTP 客 户 端 。 我 们 会 深入 了 解 两 个 可 用 的 组 件 : 强大 的 RCurl 组 件 (Temple Lang 2013a) ， 以 及 更 轻 量 级 但 
有 时 也 更 方便 的 httr 组 件 (Wickham 2012) ， 它 也 是 基于 重量 级 的 Rcurl 组 件 的 。 


R 的 基础 框 染 里 已 有 用 于 下 载 网 络 资 源 的 基本 功能 。download.file () 浮 数 能 处 理 很 多 下 载 程序 ， 让 我 们 无 须 对 HTTP 请 求 作 复杂 的 修改 。 
此 外 ， 还 有 一 套 基础 辫 数 用 于 设置 和 操作 网 络 连 接 。 想 了 解 它们 的 概要 情况 ， 可 以 在 R 里 输入 ? connections, iW, (AKER RAE. 
束 拿 download.file () 来 说 吧 ， 对 于 复杂 的 网 络 抓 取 工 作 ， 它 有 两 个 主要 的 不 足 之 处 。 首 先 ， 它 不 是 非常 灵活 。 例 如， 我 们 没 法 用 它 通 过 


HTTPS 连 接 服务 器 ， 或 额外 声明 一 些 标 头 字段 。 第 二 ， 用 download.file () 很 难 做 到 遵守 我 们 的 友好 网 络 抓 取 标 准 ， 因 为 它 缺乏 基本 的 提供 身 
份 识别 信息 的 手段 。 不 过 ， 如 果 我 们 只 是 需要 下 载 单个 文件 ，download.file () 还 是 非常 好 用 的 。 对 于 更 加 复杂 的 任务 ， 我 们 可 以 运用 RCurl 
和 httr 组 件 里 的 功能 。 


5.4.1 libcurl 库 


我 们 用 R 在 网 上 需要 做 的 工作 中 ， 很 多 能 利用 libcurl 库 产生 神奇 的 支持 作用 (Stenberg 2013) 。libcurl 是 一 个 用 C 语 言 编写 的 外 部 库 。 它 
的 开发 始 于 Daniel Stenberg 1996 年 的 cURL 项 目 ， 自 那 时 起 就 一 直 有 持续 的 开发 支持 。libcurl 的 用 途 是 为 很 多 平台 上 的 程序 提供 多 种 互联 网 协 
议 的 简单 接口 。 随 着 时 间 的 推移 ， 该 库 的 特性 不 断 增 加 ， 现 在 的 版 本 由 大 量 针 对 HTTP 通 信 进 行 设置 的 可 选 功能 和 选项 ， 以 及 其 他 一 些 特 性 组 
成 。 我 们 可 以 把 它 当 作 一 个 工具 ， 它 知道 如 何 处 理 下 列 任务 : 

声明 HTTP 标 头 。 

- 解析 URL 编 码 。 

处 理 来 自 Web 服 务 器 的 输入 数据 流 。 

. 建立 SSL 连 接 。 

连接 代理 。 

处 理 身份 验证 。 


以 及 很 多 其 他 工作 。 相 比 之 下 ，R 自 市 的 url () 和 download.file () 在 处 理 类 似 填 写 表 单 、 身 份 验证 或 建立 有 状态 对 话 等 复杂 任务 时 就 力 
不 从 心 了 。 因 此 ， 就 有 了 libcurl 的 问世 ， 让 用 户 能 在 他 们 的 普通 编程 环境 下 利用 这 个 库 。 作 者 Temple Lang 在 他 关于 RCurl 和 libcurl 设 计 理 念 的 
文章 中 指出 了 libcurl 的 益处 : 作为 最 广泛 使 用 的 文件 传输 库 ，libcurl 经 历 了 大 量 的 测试 ， 并 且 非 常 灵 活 (Temple Lang 2012a) 。 此 外 ， 用 C 语 
言 编写 也 让 它 运 行 速度 很 快 。 要 得 到 libcurl 灵 活性 的 初步 印象 ， 你 可 以 先 去 libcurl 的 接口 文档 网 
页 http://curl.haxx.se/libcurl/c/curl easy setopt.html 看 一 下 它 的 可 用 选项 。 或 者 你 也 可 以 在 R 里 输入 下 面 的 命令 ， 获 得 libcurl 在 RCurl 组 件 里 
可 以 使 用 的 “简易 ”接口 选项 的 完整 清单 : 


R> names (getCurlOptionsConstants () ) 


这 里 面目 前 有 174 个 可 用 选项 。 其 中 有 一 些 是 我 们 之 前 已 经 用 过 的 ， 如 useragent 或 proxy。 有 时 为 了 方便 ， 我 们 会 称 为 curl 选 项 而 不 是 
libcurl 选 项 。curl 是 一 个 命令 行 工 具 ， 同 样 是 由 cURL 软件 项 目 开发 的 。 在 R 里 我 们 用 到 的 是 libcurl 库 。[1] 


54.2 ”基本 请 求 方法 
5.4.2.1 ”GET 方法 


为 了 执行 一 个 基本 的 GET 请 求 ， 从 Web 服 务 器 获取 某 个 资源 ，RCurl 组 件 提 供 了 一 些 高 级 函数 : getURL () 、getBinaryURL () 以 及 
getURLContent () 。 基 本 水 数 是 getURL () ; getBinaryURL () 则 便于 处 理 二 进 制 的 内 容 ; 而 getURLContent () 会 尝试 通过 检查 响应 标 
头 的 Content-Type 字 段 提 前 确定 内 容 的 类 型 ， 并 进行 相应 的 处 理 。 虽 然 这 样 看 起 来 更 为 可 取 ， 但 getURLContent () 的 配置 有 时 更 加 复杂 ， 
所 以 我 们 在 默认 情况 下 会 继续 使 用 getURL () ， 除 非 遇 到 的 是 二 进 制 内 容 。 


getURL () 这 个 函数 会 自动 确定 主机 、 闯 口 和 请 求 的 资源 。 如 果 调 用 成 功 ， 也 融 是 说 服务 器 给 出 了 2XX 状 态 码 加 上 正文 作为 响应 ， 函 数 惑 
会 返回 响应 的 内 容 。 注 意 ， 如 果 一 切 正 常 ， 所 有 RyVlibcurl 和 服务 器 之 间 的 协商 是 对 我 们 隐藏 的 。 我 们 只 需 把 目标 URL 传 递 给 高 级 六 数 即 可 。 例 
如 ， 如 果 要 从 www.r-datacollection.comy/ymaterials/http 提 取 helloworld.html， 我 们 惑 可 以 输入 : 


R> getURL("http://www.r-datacollection.com/materials/http/helloworld.html1") 
[1] "<html>\n<head><title>Hello World</title></head>\n<body><h3>Hello World 
</h3>\n</body>\n</html1>" 


正文 会 作为 字符 数据 返回 。 对 于 二 进 制 内容 ， 我 们 可 以 使 用 getBinaryURL () 并 获取 返回 的 原始 内 容 。 例 如 ， 如 果 要 从 www.r- 
datacollection.com/materials/http 请 求 PNG 图 片 文件 sky.png， 可 以 输入 : 


R> pngfile <- getBinaryURL("http://www.r-datacollection.com/materials/http/ 
sky.png") 


后 面 的 步骤 取决 于 实际 上 如 何 处 理 它 。 在 这 个 例子 里 ， 使 用 writeBin () 函数 把 该 文件 保存 在 本 地 : 
R> writeBin(pngfile, "sky.png") 
有 时 候 ， 内 容 并 不 是 嵌入 在 静态 HTML 网 页 里 的 ， 而 是 在 我 们 提交 HTML 表 单 后 才 返 回 的 。http://www.r- 


datacollection.com/materials/http/GETexample.html 的 这 个 小 例子 可 以 让 你 把 名 字 和 年 龄 作为 输入 字段 进行 说 明 。 它 的 HTML 源 代码 如 下 所 


ak. 


<!DOCTYPE HTML> 


] 

2 <html> 

3 <head> 

4 <title>HTTP GET Example</title></head> <body> 

5 <h3>HTTP GET Example</h3> 

6 <form action="GETexample.php" method="get"> 

fi Name: <input type="text" name="name" value="Anny Omous"><br> 

8 Age: <input type="number" name="age" value="23"><br><br> 

9 <input type="Submit" value="Send Form and Evaluate"><br><br> 

10 <input type="submit" value="Send Form and Return Request" name="return"> 
</form> 

12 </body> 


13 </html> 





<form> 元 素 表 明了 输入 表单 的 数据 会 被 发 送 到 一 个 叫 作 GETexample.php 的 文件 。 四 从 该 GET 请 求 接收 到 这 些 数 据 后 ， 文 件 里 的 PHP 脚 本 
会 检查 输入 数据 并 返回 “Hello<name>! You are<age>years old.”。 在 浏览 器 里 ， 我 们 可 以 看 见 表单 的 URL 
是 http://www.rdatacollection.com/materials/http/GETexample.php?name=<name>&age=<age>， 它 指定 由 一 个 PHP 脚 本 产生 输出 结 
果 。 


在 R 里 ,我 们 如 何 处 理 这 个 以 及 与 之 类 似 的 请 求 呢 ?” 有 多 种 方式 可 以 指定 一 个 HTML 表 单 里 的 参数 。 首 先是 利用 paste () 手工 构建 URL 并 
将 其 传递 给 getURL () RŽ: 


R> url <- "http://www.r-datacollection.com/materials/http/GETexample.php" 
R> namepar <- "Eddie" 

R> agepar <- "32" 

R> url get <- str _c(url, "?", "name=", namepar, "&", "age=", agepar) 


R> cat (getURL (url get) ) 
Hello Eddie! 
You are 32 years old. 


相 比 使 用 getURL () 并 手工 构建 GET 表 单 请 求 ， 一 种 更 简便 的 方法 是 使 用 getForm () ， 它 允许 在 国 数 里 把 参数 声明 为 分 开 的 值 。 这 是 我 
们 首选 的 程序 ， 因 为 它 简化 了 修改 调用 的 工作 ， 也 不 需要 手工 编码 URL ( 见 5.1.2 节 ) 。 为 了 获得 和 上 面 例子 里 相同 的 结果 ， 我 们 可 以 编写 如 下 
语句 : 


R> url <- "http://www.r-datacollection.com/materials/http/GETexample.php" 
R> cat(getForm(url, name = "Eddie", age = 32)) 

Hello Eddie! 

You are 32 years old. 


5.4.2.2 ”POST 方法 


在 使 用 HTML 表 单 的 时 候 ， 除 了 GET 方 法 ， 我 们 还 经 常 需要 用 到 POST 方法 。 总 体 而 言 ，POST 能 支持 更 加 复杂 的 请 求 ， 因 为 在 这 种 方法 下 
请 求 参 数 不 需要 插入 URL 里 ， 而 URL 的 长 度 是 有 限制 的 。 使 用 POST 方法 意味 着 参数 及 其 值 是 在 请 求 正文 里 而 不 是 在 URL 中 发 送 的 。 我 们 在 这 里 
要 复制 前 面 的 例子 ， 只 是 现在 采用 的 是 一 个 POST 请 求 。 该 表单 的 位 置 是 http://www.r- 
datacollection.com/materials/http/POSTexample.html。 其 HTML 源 代码 如 下 所 示 : 


A Ae Ww N = 


aon A 


<!DOCTYPE HTML> 

<html> 

<head> 

<title>HTTP POST Example</title></head> 
<body> 

<h3>HTTP POST Example</h3> 

<form action="POSTexample.php" method="post"> 


Name: <input type="text" name="name" value="Anny Omous"><br> 
Age: <input type="number" name="age" value="23"><br><br> 


<input type="submit" value="Send Form and Evaluate" name="send"><br><br> 
<input type="submit" value="Send Form and Return Request" name="return"> 
</form> 
</body> 
</html> 





我 们 会 发 现 这 里 的 <form > 元素 和 前 面 例子 里 的 几乎 完全 一 样 ， 除 了 其 中 所 需 的 方法 不 同 : 现在 它 是 POST。 当 我 们 在 浏览 器 里 提交 这 个 
POST 表 单 时 ,会 看 到 URL 变 成 了 ./POSTexample.php， 在 后 面 没有 像 原 来 的 GET 查 询 那 样 加 入 了 查询 参数 。 要 在 R 里 复制 该 POST 查 询 ， 我 们 
不 必 手 工 构建 请 求 ， 而 是 可 以 使 用 postForm () RŽ: 


R> url <- "http://www.r-datacollection.com/materials/http/POSTexample.php" 
R> cat (postForm(url, name = "Eddie", age = 32, style = "post") ) 

Hello Eddie! 

You are 32 years old. 


postForm () 会 自动 构建 表单 体 ， 并 把 预先 声明 的 参数 对 填充 到 表单 里 。 不 笠 的 是 ， 对 这 些 参数 对 进行 格式 化 会 有 多 种 方式 ， 而 我 们 有 时 
必须 利用 style 参 数 预先 显 式 声明 可 接受 的 方式 (表单 内 容 类 型 的 详细 讲解 请 参见 Nolan 和 Temple Lang 2014，p.270-272 以 
及 http://www.w3.org/TR/html401/interact/forms.html) 。 对 于 application/x-www-form-urlencoded 表 单 内 容 类 型 ， 我 们 必须 声明 
style="post"; 而 对 于 multipart/form-data 表 单 内 容 类 型 ， 则 需要 声明 style= "httppost"。 这 样 可 以 正确 格式 化 表单 体 里 的 参数 对 ， 并 加 入 请 
求 标 头 字段 "Content-Type"="application/x-www-form-urlencoded" 或 "Content-Type"="multipart/form-data"。 为 了 找到 合适 的 POST 
格式 ,我 们 可 以 在 <form> 元 素 里 查找 一 个 叫 enctype 的 属性 。 如 果 它 被 声明 为 enctype='application/x-www-form-urlencoded'， 我 们 就 使 
用 style="post"。 如 果 表单 里 面 没有 这 个 属性 (如 前 面 的 例子 ) ， 那 么 去 掉 style 参 数 也 是 可 行 的 。 


5.4.2.3 ”其 他 方法 


RCurl 也 提供 处 理 其 他 HTTP 方 法 的 函数 。 我 们 可 以 通过 利用 customrequest 选 项 来 修改 getURL () 、getBinaryURL () 、 
getURLContent () 等 调用 中 的 方法 ， 例 如 : 


R> url <- "r-datacollection.com/materials/http/helloworld.html1" 
R> res <- getURL(url = url, customrequest = "HEAD", header = TRUE) 
R> cat (str split (res, ea 

HTTP/1.1 200 OK 

Date: Wed, 26 Mar 2014 00:20:07 GMT 

Server: Apache 

Vary: Accept-Encoding 

Content-Type: text/html 


因为 我 们 几乎 不 会 遇 到 需要 这 些 方法 的 情况 ， 所 以 对 此 不 再 详 述 。 
543 ”RCurl 的 底层 函数 


Rcur| 是 构建 在 功能 强大 的 libcurl 库 基础 之 上 的 ， 这 使 它 成 为 了 行家 手 里 有 力 的 武器 、 莱 乌 手 里 难以 驯服 的 怪兽 。 该 组 件 底 层 的 
curlPerform () 函数 则 是 它 的 主力 。 这 个 函数 会 收集 在 R 里 声明 的 天 于 执行 Web 请 求 方式 的 选项 : 使 用 哪个 协议 或 方法 、 设 置 哪个 标 头 字段 
等 ， 并 把 它们 整理 好 交 给 libcurl 去 执行 该 请 求 。 该 函数 里 涉及 的 所 有 内 容 都 要 明确 声明 ， 以 后 我 们 可 以 再 介绍 更 高 层 的 阔 数 。 不 过 ， 介 绍 高 层 
沙 数 起 作用 的 底层 机 制 还 是 有 用 的 。 


我 们 先 通过 调用 curlPerform () 请 求 一 个 HTML 网 页 : 


R> url <- "www.r-datacollection.com/materials/http/helloworld.html" 
R> (pres <- curlPerform(url = url)) 
OK 

0 


我 们 并 没有 得 到 URL 里 的 内 容 ， 而 仪 仅 得 到 了 表明 在 该 函数 里 一 切 正 常 的 信息 。 这 是 因为 使 用 curlPerform () 的 时 候 必须 明确 声明 所 有 内 
容 。 该 函数 确实 获取 了 那个 网 页 ， 但 不 知道 如 何 处 理 其 中 的 内 容 。 我 们 需要 为 内 容 定义 一 个 处 理 器 。 让 我 们 目 己 来 创建 一 个 。 首 先 ， 创 建 一 个 
对 象 pres 用 于 存放 网 页 ， 以 及 一 个 把 网 页 内 容 作 为 参数 并 将 其 写 入 pres 对 象 的 函数 。 因 为 选项 清单 可 能 会 很 长 ， 所 以 我 们 把 它们 单独 存放 到 一 
个 对 象 performOptions 里 ， 并 把 它 传递 给 curlPerform () : 


R> pres <- NULL 


R> performOptions <- curlOptions(url = url, 
writefunc = function(con) pres <<- con ) 
R> curlPerform(.opts = performOptions) 
OK 
0 
R> pres 


[1] "<html>\n<head><title>Hello World</title></head>\n<body><h3>Hello 
World</h3>\n</body>\n</htm1>" 


上 面 的 内 容 看 起 来 更 像 是 我 们 所 期 待 的 结果 。 除 了 内 容 处 理 器 ， 还 有 其 他 处 理 器 可 以 传递 给 curlPerform () : 通过 debugfunc 的 调试 处 
理 器 ， 以 及 通过 headerfunc 的 HTTP 标 头 处 理 器 。 对 于 这 些 类 型 中 的 每 一 个 ，RCurl 里 都 已 有 精巧 的 函数 可 用 ， 让 我 们 无 顷 声 明 自 己 的 处 理 器 函 
数 。 对 于 内 容 和 标 头 ，basicTextGatherer () 可 以 把 一 个 对 象 转变 为 一 批 处 理 更 新 、 重 置 和 提取 值 的 六 数 。 在 下 面 的 例子 里 ， 我 们 会 利用 这 三 
种 处 理 方式 。 注 意 ， 要 让 debugfunc 起 作用 ， 我 们 需要 设置 verbose 选 项 为 TRUE : 


R> content <- basicTextGatherer () 
R> header <- basicTextGatherer () 
R> debug <- debugGatherer () 


R> performOptions <- curlOptions(url = url, 
writefunc = contentSupdate, 
headerfunc = headerSupdate, 
debugfunc = debugSupdate, 
verbose = T) 

R> curlPerform(.opts=performOptions) 

OK 

0 


使 用 内 容 的 value () 函数 ， 可 以 提取 从 服务 器 友 送 的 内 容 。 


R> str_sub(content$value(), 1, 100) 
[1] "<html>\n<head><title>Hello World</title></head>\n<body><h3>Hello 


World</h3>\n</body>\n</htm1>" 
header$value () 包含 从 服务 器 返回 的 标 头 : 


R> headerSvalue () 
[1] "HTTP/1.1 200 OK\r\nDate: Wed, 26 Mar 2014 00:20:10 GMT\r\nServer: 


Apache\r\nvary: Accept-Encoding\r\nContent-Length: 89\r\nContent-Type: 
text/html\r\n\r\n" 


debug$value () 存放 关于 HTTP 请 求 的 多 份 信息 。 关 于 这 个 主题 的 更 多 信息 ， 可 以 参见 5.4.6 节 。 


R> names (debug$value() ) 
[1] "text" "headeriIn" "headerOut" "dataIn" "dataOut" 


[6] "sslDataIn" "sslDataOut" 
R> debug$value() ["headerOut"] 


headerOut 
"GET /materials/http/helloworld.html HTTP/1.1\r\nHost: www.r-datacollection. 


com\r\nAccept: */*\r\n\r\n" 
544 ”在 多 个 请 求 里 保持 连接 


同一 个 服务 器 发 送 多 个 请 求 是 一 种 常见 情况 ， 特 别 是 当 我 们 想 要 访问 一 组 资源 (如 多 个 HTML 网 页 ) 的 时 候 。 在 HTTP/1.0 版 的 默认 设置 是 
给 每 个 请 求 创建 一 个 新 的 连接 ， 这 种 做 法 速度 慢 而 且 效 率 低 。 在 HTTP/1.1 版 ， 默认 的 连接 是 持久 的 ， 这 意味 着 我 们 可 以 给 多 个 请 求 使 用 同一 个 
连接 。RCurl 组 件 提供 了 重复 使 用 已 有 连接 的 功能 ， 我 们 可 以 利用 它 来 创建 更 快 的 抓 取 程 序 。 


重复 使 用 连接 是 通过 所 谓 的 “cunl 处 理 器 ”来 起 作用 的 。 它 们 会 作为 连接 本 身 及 其 附加 特性 或 选项 的 容器 。 我 们 在 这 里 创建 如 下 的 处 理 器 : 
R> handle <- getCurlHandle() 


在 handle 对 象 里 的 处 理 器 属于 CURLHandle 类 ， 当 前 只 是 一 个 空 的 容器 。 我 们 可 以 往 里 加 入 用 listCurlOptions () 能 列 出 的 一 些 curl 选 
Im, an: 


R> handle <- getCurlHandle(useragent = str _c(R.version$Splatform, 


R> R.versionsversion.string, 
R> sep=", "), 

R> httpheader = c(from = "ed@datacollection.com"), 
R> followlocation = TRUE, 

R> cookiefile = "") 


在 上 面 的 例子 里 ， 我 们 声明 了 一 个 包含 当前 R 版 本 号 的 User-Agent 标 头 字 段 ， 一 个 包含 了 电子 邮件 地 址 的 From 标 头 字 段 ， 设 置 
followlocation 人 参数 为 TRUE， 并 激活 了 cookie 管 理 特性 (参见 5.4.5 节 ) 。 上 面 的 curl 处 理 器 现在 可 以 通过 curl 参 数 用 于 多 个 请 求 。 例 如 ， 如 果 
有 一 个 放 在 url 对 象 里 的 URL 向 量 ， 我 们 可 以 通过 把 上 述 curl 处 理 器 中 的 设 定 传递 给 getURL () 来 获取 这 些 网 页 。 


R> lapply(urls, getURL, curl = handle) 


注意 ， 前 面 的 curl 处 理 器 容器 在 多 个 请 求 之 间 并 不 是 固定 的 ， 而 是 可 以 修改 的 。 一 旦 我 们 在 一 个 请 求 中 声明 了 新 的 选项 ， 它 们 就 会 被 加 进 该 
curl 处 理 器 中 ， 或 者 覆盖 已 有 的 选项 ， 例 如 ， 通 过 这 条 代码 : 
getURL (urls, curl=handle, httpheader=c (from= “max@datacollection.com” ) ) 。 要 保留 原 有 处 理 器 的 状态 而 对 另 一 个 请 求 使 用 修 
改 的 处 理 器 ， 我 们 可 以 通过 dupCurlHandle () 复制 它 并 使 用 “克隆 ”版 的 处 理 器 : 


R> handle2 <- dupCurlHandle(curlhandle, 
R> httpheader = c(from = "ed@datacollection.com") ) 


如 果 我 们 要 把 某 个 处 理 器 中 声明 的 设置 重复 使 用 于 其 他 服务 器 的 请 求 ， 克 隆 处 理 器 融会 特别 有 用 。 其 实 ， 并 不 是 折 有 的 设置 都 适用 于 每 个 
请 求 ( 例 如， 协议 设置 或 访问 来 源 信息 ) ， 而 且 某 些 信 息 很 可 能 只 应 该 传递 给 某 个 特定 的 服务 器 ， 例 如， 身份 验证 的 详细 信息 。 


我 们 什么 时 候 应 该 使 用 curl 处 理 器 ? 首先 ， 它 们 对 于 在 RCurl 组 件 的 整个 会 话 过 程 中 声明 并 使 用 选项 是 比较 方便 的 ， 这 样 能 够 简化 代码 ， 并 
让 代码 更 可 靠 。 其 次 ， 如 果 我 们 能 重复 使 用 同一 个 连接 ， 从 同一 个 服务 器 获取 一 批 资 源 的 速度 会 更 快 。 


5.4.5 选项 
我 们 已 经 看 到 ， 利 用 curl 处 理 器 可 以 在 RCur| 函 数 调 用 中 声明 选项 。 不 过 ， 也 有 其 他 手段 可 以 做 到 这 一 点 。 辟 体 而 言 ，RCur| 选 项 可 以 划分 


为 定义 基础 libcurl 库 特性 的 ， 以 及 定义 在 R 里 的 信息 处 理 方式 的 。 可 用 的 选项 浩如烟海 ， 所 以 我 们 把 经 常用 到 的 部 分 选 出 来 并 列举 在 表 5-3 里 。 
其 中 的 一 些 选 项 已 经 在 前 面 介 绍 过 ， 其 他 的 会 在 后 面 进行 讲解 。 让 我 们 先 看 看 对 选项 进行 声明 的 多 种 万 式 。 


#5-3 ”能 在 RCut 马 数 中 声明 的 常用 libcufll 选 项 清单 


customrequest E X 在 oe 的 Hi K PA á E i 用 的 = t "HEAD" 
0 customrequest = 
qd HTTP 方法 a 


HTTP 服务 器 建议 转向 到 另 一 个 URL 时， 是 
followlocation 看 转向 followlocation = TRUE 
不 在 上 让 


i er a ial httpheader = c('Accept- 
httpheader 指定 额外 的 HITP 请 求 标 头 上 l p 
Charset' ="utf-8") 


az m 示 H 


ESPE ENER PN | _connecttimeout - 10 





TRUE 时 ， 限 


在 followlocation 
制 转向 次 数 以 避免 无 限 循环 
从 文件 获取 特定 的 字 节 范 


选 项 
referer 


只 是 


围 ， 即 文 


档 的 一 部 分 (不 一 定 对 每 个 服务 冀 有 效 ) 


用 来 指定 一 个 Referer 标 头 字段 的 便 
利 选项 





例 
maxredirs = 5L 
range = "1-250" 
referer = "www.exam- 


ple.com" 


设 定 等 生 curl 请 求 执 行 的 最 大 秒 数 timeout = 20 
用 来 指定 一 个 User-agent 标 头 字段 m 
useragent 的 便利 选项 useragent = "RCurl1" 
Weed AM FIP 服务 器 下 载 文件 名 ， 
网 5.3.2 让 7 
u- Ww EINI F oe EY i E yh 是 
MITY | en oe ARS am FAD FRA re ftp.use.epsv = FALSE 
ookie (& | cookiefile 指定 包 合 cookie 的 文件 以 便 从 中 读 取 ， cookiefile = "" 
Cookie (2 或 者 如 果 参 数 为 空 ， 则 激活 cookie 管理 | o 
H, 5.2.1.1 节 
‘al 9.1.8 47) ee 把 多 个 请 求 收集 的 cookie 写 到 一 个 文 cookiejar = "/files/ 
件 里 cookies" 
sp Oe eee E P ee ane ee cainfo = system.file 
为 SSL 证 书 验 证 指定 高 有 数字 签名 的 | Sig 
cainfo 文件 ("CurlSShL", "cacert. 
SSL ( 参 pem", package ="RCurl") 
a ie ES EBERLE a 
H 5.3.1 ii ssl.verifyhost 设 定 是 否 对 证 刷 和 主机 的 匹配 情况 进行 ssl.verifyhost = FALSE 
和 9.1.7 节 ) 校 验 
ssl.verifypeer 设 定 是 否 对 服务 名 证 书 进行 校 验 ， 在 服 ssl.verifypeer = FALSE 
YRSSS | 务 器 缺少 证 书 但 仍然 值得 信任 时 有 用 2 


我 们 可 以 给 高 级 函数 的 单个 调用 声明 选项 (Aa, getURL, getURLContentlL{Rget-BinaryURL) 。 
汶 数 调用 。 在 下 面 的 例子 里 ， 我 们 加 入 了 header=TRUE， 目 的 是 不 仅 要 获取 内 容 ， 


也 需要 响应 标 头 : B 


在 这 种 情况 下 ， 选 项 只 


R> url <- "www.r-datacollection.com/materials/http/helloworld.html1" 


R> res <- getURL(url 
R> cat (str split (res, 
HTTP/1.1 200 OK 
Date: Wed, 26 Mar 2014 00:20:11 GMT 
Server: Apache 

Vary: Accept-Encoding 
Content-Length: 89 

Content-Type: text/html 


url, header TRUE) 


we") CATI) 


<html> 

<head><title>Hello World</title></head> 
<body><h3>Hello World</h3> 

</body> 

</html> 


另 一 种 更 持久 的 声明 选项 方式 是 把 它们 绑 定 到 某 个 curl 处 理 器 ， 这 种 方式 在 2.4.4 节 


半 ， 每 个 通过 curl 选 项 使 用 这 个 处 理 器 的 遂 


a 


都 会 用 到 同样 的 选项 。 如 果 某 个 销 数 使 用 了 该 处 理 器 ， 并 重新 定义 了 某 些 选项 或 增加 了 其 他 选项 ， 那 么 这 些 修 改 也 会 锐 市 到 该 处 理 器 里 。 在 下 
面 的 例子 中 ， 我 们 创建 一 个 新 的 处 理 器 ， 并 声明 该 请 求 必须 使 用 HTTP 的 HEAD 方 法 : 


R> handle <- getCurlHandle (customrequest = "HEAD") 
R> res <- getURL(url = url, curl = handle) 
R> cat (str split(res, "\r") [[1]]) 


上 面 第 一 次 使 用 该 处 理 器 的 函数 调用 只 得 到 了 一 个 空 向 量 ， 因 为 HEAD 方 法 的 响应 不 提供 正文 ， 而 header 选 项 又 没有 声明 。 在 下 面 的 第 二 
次 调用 里 ， 我 们 增加 了 header 参 数 以 获取 标 头 信息 : 


R> res <- getURL(url = url, curl = handle, header = TRUE) 
R> cat(str split(res, "\r") [[1]]) 
HTTP/1.1 200 OK 


Date: Wed, 26 Mar 2014 00:20:14 GMT 
Server: Apache 


Vary: Accept-Encoding 
Content-Type: text/html 


现在 ， 加 入 的 声明 已 经 成 为 了 该 处 理 器 的 一 部 分 。 在 重复 使 用 它 的 时 候 ， 我 们 就 不 必 再 声明 header=TRUE 了 了 : 


R> res <- getURL(url = url, curl = handle) 
R> cat(str split(res, "\r") [[1]]) 
HTTP/1.1 200 OK 


Date: Wed, 26 Mar 2014 00:20:16 GMT 
Server: Apache 


Vary: Accept-Encoding 
Content-Type: text/html 


利用 dupCurlHandle () ， 我 们 也 可 以 把 一 个 处 理 器 中 的 选项 集 复制 到 另 一 个 处 理 器 中 : 


R> handle2 <- dupCurlHandle (handle) 
R> res <- getURL(url = url, curl = handle2) 


还 有 两 个 更 加 全 局 化 的 方法 。 首 先 ， 可 以 定义 一 组 选项 ， 把 它们 保存 到 一 个 对 象 里 ， 然 后 在 初始 化 处 理 器 或 调用 遂 数 的 时 候 把 该 对 象 传递 
给 .opts 参 数 。curlOptions () 函数 会 帮助 扩展 和 匹配 选项 名 : 


R> curl options <- curlOptions (header = TRUE, customrequest = "HEAD") 
R> res <- getURL(url = url, .opts = curl options) 


在 使 用 getForm () 和 postForm () 的 时 候 ， 如 果 需 要 声明 更 多 的 cur| 选 项 ， 我 们 就 必须 使 用 .opts 参 数 。 否 则 ， 该 函数 就 无 法 区 分 表单 参 
数 和 curl 选项 。 此 外 ， 对 于 POST 方法 ， 除 了 可 以 在 URL 后 面 直接 声明 参数 ， 也 可 以 通过 一 个 传递 给 .params 选 项 的 列表 进行 处 理 : 


R> cat (postForm(url, .params = c(name = "Eddie", age = "32"), 
Style = "post", 
.opts = list(useragent = "Eddie's R scraper", 
referer = "www.r-datacollection.com") ) ) 
<html> 


<head><title>Hello World</title></head> 
<body><h3>Hello World</h3> 


</body> 
</html> 


另行 


第 二 种 全 局 化 的 方法 是 ,我们 甚至 可 以 利用 R 的 全 局 选项 系统 来 声明 标准 值 。 这 些 标准 值 会 成 为 每 个 curl 处 理 器 或 遂 数 调用 的 一 部 分 ， 除 非 
ABH: 


R> options (RCurlOptions = list (header = TRUE, customrequest = "HEAD") ) 
R> res <- getURL(url = url) 
R> options (RCurlOptions = list()) 


既然 知道 了 如 何 设置 选项 ， 我 们 就 应 该 更 深入 地 了 解 两 个 选项 ， 因 为 它们 能 控制 HTTP 方 法 和 HTTP 标 头 : Customrequest 和 httpheader。 
customrequest 选 项 已 经 在 前 面 的 例子 里 用 迄 了 ， 它 告诉 libcur| 要 使 用 它 声 明 的 那个 方法 : 如 POST，HEAD 或 PUT， 而 不 是 默认 的 GET 方 法 。 
例如 ， 我 们 可 以 这 样 把 getURL () 转化 为 一 个 post 表 单 信息 的 函数 : 


R> res <- getURL("www.r-datacollection.com/materials/http/POSTexample.php", 
customrequest = "POST", 
postfields = "name=Eddie&age=32") 

R> cat (str split (res, "\r") [[1]]) 

Hello Eddie! 

You are 32 years old. 


用 httpheaders 选 项 可 以 逐个 添加 HTTP 标 头 。 我 们 把 它们 以 列表 的 形式 加 入 ， 其 中 列表 每 个 条 目的 名 称 指定 了 标 头 名 ， 每 个 条 目的 值 则 对 
应 标 头 的 值 。 让 我 们 来 声明 一 些 有 用 的 标准 标 头 ， 并 将 它们 传递 给 一 个 getURL () 的 调用 。 要 查看 有 哪些 标 头 是 随 着 HTTP 请 求 友 送 的 ， 我 们 
可 以 同一 个 直接 返回 它 接收 到 的 HTTP 请 求 的 网 页 发 送 请 求 。 首 先 ， 发 送 一 个 没有 任何 附加 声明 的 请 求 : 


R> url <- "r-datacollection.com/materials/http/ReturnHTTP.php" 
R> res <- getURL(url = url) 

R> cat (str split (res, "eel if E 

GET /materials/http/ReturnHTTP.php HTTP/1.1 

Authorization: 

Host: r-datacollection.com 

Accept: */* 

Connection: close 


从 上 述 结 果 可 以 看 出 ， 只 有 一 些 标 头 是 随 着 我 们 的 HTTP 请 求 一 起 发 送 的 。 现 在 我 们 要 向 列表 里 增加 一 个 rom 和 user-agent 标 头 声明 : |! 


R> standardHeader <- list ( 


from = "eddie@r-datacollection.com", 

'user-agent' = str _c(R.version$platform, 
R.versionSversion.string, 
sep=", ")) 


R> res <- getURL(url = url, httpheader = standardHeader) 

R> cat (str split (res, At ADNA D 

GET /materials/http/ReturnHTTP.php HTTP/1.1 

Authorization: 

Host: r-datacollection.com 

Accept: */* 

From: eddie@r-datacollection.com 

User-Agent: x86 64-w64-mingw32, R version 3.0.2 (2013-09-25) 
Connection: close 


作为 本 节 的 结尾 ， 我 们 提供 一 个 天 于 默认 选项 列表 的 例子 。 我 们 推荐 在 加 载 KCurl 之 后 ， 会 话 启动 时 ， 直 接 通 过 options () 来 设置 这 些 选 


项 。 这 种 方式 下 ， 哪 些 选 项 被 设置 为 所 有 函数 和 处 理 器 的 默认 配置 是 透明 的 ， 并 且 选 项 只 需 设 定 一 次 也 是 很 方便 的 。 在 该 例子 里 ， 首 先 会 把 前 
面 用 到 的 from 和 user-agent 选 项 加 进来 ， 让 我 们 在 整个 过 程 中 能 说 明 自 己 的 身份 。 下 一 步 会 设置 followlocation 为 TRUE， 告 诉 libcurl 自 动 跟随 
重 定向 指令 一 一 maxredirs 会 限制 这 种 重 定向 的 次 数 ， 以 避免 无 限 循环 。 再 下 一 步 ， 我 们 会 声明 一 个 缺 省 的 连接 超时 以 及 一 个 完成 超时 选项 
(Connecttimeout 和 timeout) 。 前 者 告诉 libcurl 在 10 秒 之 后 停止 连接 服务 器 的 尝试 ， 而 后 者 是 我 们 给 libcurl 完 成 整个 请 求 的 最 大 时 间 长 度 。 
标准 的 libcurl 连 接 超时 是 300 秒 。 设 置 cookiefile 选 项 则 可 以 让 libcurl 接 收 、 保 仔 并 上 友 回 cookie。 最 后 一 个 选项 声明 的 是 包含 了 SSL 证 书 验 证 所 需 
数字 签名 的 文件 位 置 : 


R> defaultOptions <- curlOptions ( 

httpheader = list ( 

from = "Eddie@r-datacollection.com", 

‘user-agent ' = str_c(R.versionSplatform, 
R.versionSversion.string, 
sep=", "JJ; 

followlocation = TRUE, 


maxredirs = 10, 

connecttimeout = 10, 

timeout = 300, 

cookiefile = "RCurlCookies.txt", 

cainfo = system.file("CurlSSL","cacert.pem", package = "RCurl") ) 


R> options (RCurlOptions = defaultOptions) 


默认 选项 的 列表 可 以 通过 如 下 命令 清空 : 


R> options (RCurlOptions = list()) 


546 调试 


如 果 在 HTTP 调 用 过 程 中 出 现 了 错误 ， 会 友 生 什么 事情 ”我 们 在 5.1.5 节 已 经 提 到 了 ， 很 多 环节 都 有 可 能 会 出 错 ， 服 务 器 也 会 通知 它 猜 测 的 错 
误 类 型 。 在 最 简单 的 情况 下 ， 我 们 可 能 会 得 到 URL 错 误 : 


R> getURL("http://www.stata-datacollection.com") 
Error: Could not resolve host: www.stata-datacollection.com; Host 
not found 


有 些 错 误会 更 不 明显 ， 但 还 是 会 让 我 们 无 法 从 服务 器 获取 内 容 。 在 本 节 我 们 会 介绍 一 些 工 具 ， 它 们 有 助 于 找到 程序 不 能 正常 工作 的 原因 。 
我 们 已 经 知道 ， 可 以 通过 设置 header 选 项 为 TRUE， 让 RCurl 函 数 捕获 响应 标 头 。 不 过 ， 我 们 往往 希望 获得 更 多 信息 ， 例 如 ， 在 向 服务 器 友 送 请 
求 后 ， 到 达 服 务 器 的 信息 等 。 


对 于 HTTP 调 试 ， 有 个 通用 的 工具 是 http://httpbin.org 网 站 上 的 服务 ， 它 提供 了 一 系列 关于 特定 HTTP 请 求 的 服务 端点 。 要 检验 一 个 GET 请 
求 的 格式 是 否 正 确 ， 以 及 到 达 服 务 器 端的 信息 ， 可 以 编写 如 下 代码 : 


R> url <- "httpbin.org/get" 
R> res <- getURL(url = url) 
R> cat (res) 

{ 


"args": {}, 


We 7134.34,221. 729", 


"headers": { 
"Accept" : slit elit ， 
"X-Request-Id": "348467d6-6641-4863-abb3-a79a602f17e5", 


"Host": “ht tpbin.org™,, 
"Connection": "close" 


}, 


"url": "http://httpbin.org/get" 


此 外 ， 通 过 在 函数 调用 里 声明 一 个 调试 信息 采集 器 ，RCur|l 也 对 检验 HTTP 调 用 提供 了 自己 的 方法 。 该 程序 的 功能 很 强大 ， 而 且 不 依赖 于 外 
部 资源 。 它 的 工作 原理 如 下 : 首先 ， 通 过 调用 debugGatherer () 创建 一 个 包含 三 个 负数 (update () 、value () 和 reset () ) 的 对 象 : 


R> debugInfo <- debugGatherer () 
R> names (debugInfo) 

[1] "update" "value" "reset" 
R> class (debugInfo[[1]]) 

LL] *“iunctzon* 


第 二 步 ， 我 们 使 用 普通 的 getURL () 函数 和 debugfunction 选 项 请 求 一 个 网 页 。 通 过 该 选项 ， 可 以 声明 一 个 采集 libcurl 提 供 的 原始 调试 信 
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息 的 遂 数 ， 这 就 是 存放 在 debuglnfo 里 的 update () 国 数 。 要 使 必要 的 调试 信息 可 用 ， 必 须 设 置 verbose 选 项 为 TRUE : 


R> url <- "r-datacollection.com/materials/http/helloworld.html1" 
R> res <- getURL(url = url, debugfunction = debugInfoSupdate, 


verbose = T) 


第 三 步 ， 也 是 最 后 一 步 ， 可 以 通过 调用 保存 在 debuglnfo 对 象 里 的 value () 函数 ， 访 问 在 getURL () 执行 过 程 中 收集 的 调试 信息 。value 


为 数 给 出 7 个 条 目 : 


R> names (debugInfoSvalue () ) 
[1] "text" "headeriIn" "headerOut" "dataIn" "dataOut" 


[6] "sslDataIn" "sslDataOut" 


结果 向 量 里 的 第 一 个 条 目 (text) 获取 了 libcurnl 提 供 的 关于 该 程序 的 信息 : 


R> cat (debugIinfoSvalue() ["text"] ) 
About to connect() to r-datacollection.com port 80 (#0) 


Trying 173.236.186.125... connected 
Connected to r-datacollection.com (173.236.186.125) port 80 (#0) 
Connection #0 to host r-datacollection.com left intact 


Closing connection #0 


headerln 存 放 了 HTTP 响 应 的 标 头 : 


R> cat (str split (aebugInftoS$value () ["headerIn"], ee) Pita) 
HTTP/1.1 200 OK 

Date: Wed, 26 Mar 2014 00:20:25 GMT 

Server: Apache 

Vary: Accept-Encoding 

Content-Length: 89 

Content-Type: text/html 


HTTP 请 求 的 标 头 存放 在 headerOut 里 : 


R> cat (str split (debugInfo$value() ["headerOut"], "\r") [[1]]) 
GET /materials/http/helloworld.html HTTP/1.1 

Host: r-datacollection.com 

Accept: */* 


响应 的 正文 包含 在 dataln 里 : 


R> cat (str split (debugInfosvalue() ["dataIn"], mE il 
<html> 

<head><title>Hello World</title></head> 

<body><h3>Hello World</h3> 

</body> 

</html> 


发 送 数 据 的 正文 。 例 如 ， 如 果 我 们 使 用 了 POST 方 法 ， 可 以 在 dataOut 里 找到 |: 


R> cat (str split (debugInfoSvalue() ["dataOut"], eae) id 


在 本 例 中 ， 这 个 指令 输出 的 结果 是 空 的 ， 因 为 我 们 使 用 的 是 GET 方 法 ， 根 据 定 义 ， 它 不 会 把 任何 数据 放 在 请 求 正文 里 发 送 。 
剩 下 的 两 个 条 目 ssIDataln 和 ssIDataOut 类 似 于 dataln 和 dataOut， 不 过 它们 是 用 于 加 密 连 接 的 。 它 们 在 我 们 的 请 求 里 也 是 空 的 : 


R> cat (str split (debugInfo$value() ["sslDataIn"], "\r") [[1]]) 
R> cat (str split (debugInfo$value() ["sslDataOut"], "\r") [[1]]) 


另 一 个 宝贵 信息 的 来 源 可 能 是 getCurllnfo () 水 数 ， 它 提供 了 关于 某 个 curl 处 理 器 当前 状态 的 附加 信息 。 为 了 得 到 这 些 信息 ， 我 们 首先 声 
明 一 个 处 理 器 ， 把 它 用 在 一 个 沙 数 调用 中 ， 然 后 对 该 处 理 器 调用 getCurlinfo () 函数 : 


R> handle <- getCurlHandle () 

R> url <- "r-datacollection.com/materials/http/helloworld.html" 
R> res <- getURL(url = url, curl = handle) 

R> handleInfo <- getCurlInfo (handle) 


它 提 供 的 信息 可 谓 五 花 八 门 : 


R> names (handleInfo) 


[1] 

[3] 

[5] 

[7] 

[9] 
[11] 
[234 
[15] 
[17] 
[19] 
[21] 
[23] 
[25] 
[27] 
[29] 
[31] 
[33] 
[35] 


"effective.url" 
"total.time" 
"connect.time" 
"Size.upload" 
"speed.download" 
"header.size" 
"Ssl.verifyresult" 
"content.length.download" 
"Starttransfer.time" 
"redirect.time" 
"private" 
"httpauth.avail" 
"os.errno" 
"Ssl.engines" 
"lastsocket" 
"redirect.url" 
"appconnect.time" 
"condition.unmet" 


"response.code" 
"namelookup.time" 
"oretransfer.time" 
"size.download" 
"speed.upload" 
"regquest.size" 
"filetime" 
"content.length.upload" 
"content .七 YPe 
"redirect.count" 
"http.connectcode" 
"proxyauth.avail" 
"num.connects" 
"cookielist" 
"ftp.entry.path" 
"primary.ip" 
"certinfo" 


这 里 有 用 的 操作 之 一 是 分 析 完 成 请 求 需要 的 总 时 间 ， 以 及 为 了 开始 传输 所 需 付 备 工作 完成 的 时 间 ， 也 融 是 解析 域名 、 建 立 到 主机 的 连接 和 
上 友 送 请 求 的 时 间 ， 以 便 了 解 可 能 的 瓶颈 友 生 在 哪里 : 


R> handleInfo[c("total.time", 


Stotal.time 
[1] 0.219 


Spretransfer.time 
[1] 0.11 


如 果实 际 下 载 开始 之 前 花费 的 时 间 占 据 了 完成 请 求 总 时 间 的 很 大 一 部 分 ， 


"poretransfer.time") ] 


RIMM (对 于 向 同一 个 服务 器 友 出 多 个 请 求 的 情况 ) 确保 连 


接 是 重复 使 用 的 。 我 们 可 以 针对 重复 使 用 和 不 重复 使 用 同一 个 处 理 器 的 情况 ， 分 别 连 续 收 集 十 次 传输 前 时 间 和 辟 时 间 的 比率 : 


R> preTransTimeNoReuse <- rep(NA, 10) 
R> preTransTimeReuse <- rep(NA, 10) 
R> url <- "r-datacollection.com/materials/http/helloworld.html1" 


R> # no reuse 
R> for (i in 1:10) { 
handle <- getCurlHandle() 
res <- getURL(url = url, curl = handle) 
handleInfo <- getCurliInfo (handle) 
preTransTimeNoReuse [i] <- handleInfoSpretransfer.time 


R> # reuse 

R> handle <- getCurlHandle() 

R> for (i in 1:10) { 
res <- getURL(url = url, curl = handle) 
handleInfo <- getCurlInfo (handle) 
preTransTimeReuse[i] <- handleInfoSpretransfer.time 


收集 到 的 时 间 值 很 清楚 地 表明 ， 人 在 要 为 每 个 请 求 建立 连接 的 情况 下 ， 连 接 时 间 会 累加 起 来 ; 而 通过 重复 使 用 curl 处 理 器 可 以 避免 这 种 情况 ， 
让 处 理 器 能 只 建立 一 次 连接 并 重复 使 用 此 连接 帮 送 多 个 请 求 : 


R> preTransTimeNoReuse 

[1] 0.110 0.094 0.109 0.109 0.094 0.109 0.110 0.109 0.125 0.110 
R> preTransTimeReuse 

[1] 0.125 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 


5.4.7 ”错误 处 理 


在 讨论 了 发 现 分 析 代码 出 错 原因 的 工具 之 后 ， 本 节 还 要 讲解 一 种 RCur|l 特 有 的 错误 处 理 方法 。 我 们 会 经 历 各 种 类 型 的 错误 ， 一 些 是 我 们 自己 
构造 的 (例如 ， 通 过 声明 一 个 错误 的 主机 名 或 请 求 一 个 不 存在 的 资源 ) ， 一 些 是 因为 连接 中 断 造成 的 ， 还 有 一 些 是 在 服务 器 端 产生 的 。RCur| 提 
供 的 一 套 查 找 内 容 的 函数 知道 很 多 不 同 的 错误 类 型 。 我 们 可 以 通过 调用 getCurIErrorClassNames () 函数 获得 一 个 清单 。 在 这 里 选择 一 些 最 常 
见 的 错误 : 


R> getCurlErrorClassNames()[c(2:4, 7, 8, 10, 23, 29, 35, 64)] 


[1] "UNSUPPORTED PROTOCOL" "FAILED INIT" "URL MALFORMAT" 
[4] "COULDNT RESOLVE HOST" "COULDNT CONNECT" "REMOTE ACCESS DENIED" 
[7] “HTTP RETURNED ERROR" "OPERATION TIMEDOUT" "HTTP POST ERROR" 


[10] "FILESIZE EXCEEDED" 


通过 使 用 tryCatch () PI， 我 们 可 以 指定 由 特定 的 动作 来 应 付 不 同类 型 的 错误 。 作 为 例子 ， 我 们 选择 一 个 用 户 产 生 的 错误 。 我 们 有 一 个 包 
含 两 个 URL 的 集合 。 首 先 尝 试 收集 第 一 个 。 设 行动 失败 ， 因 为 这 个 主机 并 不 存在。 第 二 个 URL 可 以 在 第 一 个 URL 产 生 
COULDNT RESOLVE_HOST 类 错误 的 时 候 作为 替代 方案 : 


R> urll <- "wwww.r-datacollection.com/materials/http/helloworld.html" 
R> res <- getURL(urll) 

Error: Could not resolve host: wwww.r-datacollection.com; Host not 
found 


调用 产生 了 一 个 错误 ， 并 没有 创建 res。 当 在 程序 里 试图 处 理 res 对 象 时 ， 我 们 可 能 会 产生 更 大 的 错误 。 


现在 对 付出 现 的 错误 。 在 下 面 的 代码 片段 里 ，res 对 象 保存 了 调用 tryCatch () 得 到 的 结果 。 在 函数 内 部 ， 我 们 首先 规定 默认 操作 ， 即 访问 
第 一 个 URL。 后 面 两 条 语句 是 以 “errorType= 错 误 处 理 阔 数 ” 形 式 表达 的 。 对 于 每 一 个 错误 ，tryCatch 都 会 检查 错误 的 类 型 是 否 匹 配 了 指定 的 
错误 名 之 一 ， 在 本 例 中 是 COULDNT_RESOLVE_HOST 和 error， 然 后 执行 该 锋 误 对 应 的 阔 数 。 在 上 面 的 例子 里 ， 黑 认 指 令 产 生 了 一 个 主机 解析 
alm, ， 然 后 会 获取 第 二 个 URL 的 内 容 。 其 他 任何 锻 误 都 应 该 会 产生 一 个 NA， 它 会 家 分 配给 res， 而 且 软 认 的 错误 信息 会 被 打印 出 来 。 


R> url2 <- "www.r-datacollection.com/materials/http/helloworld.html1" 
R> res <- tryCatch 人 
getURL(url = urll), 
COULDNT RESOLVE HOST = function(error) { 
getURL(url = url2) 


} ， 


error = function(error) { 
print (errorSmessage) 
NA 


} 
) 
R> cat (str split (res,"\r") [[1]]) 
<html> 
<head><title>Hello World</title></head> 
<body><h3>Hello World</h3> 
</body> 
</html> 


54.8 ”用 RCurl 还 是 httr 呢 


RCurl 是 一 个 功能 相当 强大 的 组 件 ， 它 能 帮助 构造 最 复杂 精密 的 请 求 ， 也 能 接收 和 人 处理 接 收 到 的 响应 。 不 过 ， 有 时候 它 的 体 量 却 略 嫌 腔 肿 。 
幸运 的 是 ， 有 个 组 件 能 提供 更 简洁 的 接口 ， 它 就 是 httr 组 件 (Wickham 2012) 。 它 是 在 RCurl 组 件 基础 之 上 创建 的 ， 包 装 了 我 们 前 面 介绍 过 的 
那些 消 数 。 


在 表 5-4 里 ， 我 们 比较 了 两 个 组 件 的 函数 ， 用 它们 分 别 执行 选 定 的 HTTP 和 身份 验证 任务 。 这 些 函 数 中 有 一 些 的 语法 差别 很 大 ， 而 且 也 不 一 
定 都 实现 同样 的 功能 。 虽 然 目前 我 们 不 希望 涉及 httr 组 件 的 更 多 细节 ， 也 没有 理由 教条 地 只 是 在 两 个 组 件 中 二 选 一 。 实 际 上 ，httr 提 供 了 多 个 特 
性 ， 能 够 在 很 大 程度 上 简化 某 些 数据 采集 任务 ， 例 如 ， 通 过 OAuth 进 行 身份 验证 ( 见 9.1.11 节 ) 。 


[1] 你 也 可 以 参阅 http://daniel.haxx.se/docs/cutl-vs-libcutLhtml 了 解 cURL、cutl 和 libcutl 之 间 的 差异 。 

[2] PHP， 即 超 文本 预 处理 器 (Hypertext Preprocessor) ， 之 前 叫 个 人 网 页 工具 (Personal Home Page Tools) ， 是 一 门 脚本 语言 ， 通 常 在 服务 器 端 
运用 ， 用 于 创建 动态 网 页 。 本 例 的 URL 结 尾 处 的 .php 表 明 此 处 的 内 容 是 由 一 个 PHP 脚 本 产生 的 。 

3] ” 注意， 遗憾 的 是 ， 并 非 所 有 选项 在 每 个 高 级 函数 里 都 有 相同 的 工作 方式 。 例 如 ， 在 getURLContent0 〇 里 的 headet 参 数 就 不 能 接受 布尔 值 作为 输 
入 。 我 们 会 在 涉及 它们 的 时 候 指 出 其 中 的 例外 情况 。 

[4] 要 查看 其 他 传统 标 头 字段 的 清单 ， 请 参见 5.1.6 节 或 查看 http://www.w3.org/Protocols/rfc2616/rtfc2616-sec14.html 上 的 完整 清单 。 


[5] 11.3.2 节 可 以 学 习 更 多 有 关 该 函数 的 详细 讲解 。 


小 结 


要 通过 R 向 Web 服 务 器 发 出 高 级 请 求 ， 必 须 具备 HTTP 的 基础 知识 。 在 本 章 中 ， 我们 概要 讲解 了 HTTP 的 基本 概念 和 一 些 对 网 络 抓 取 很 实用 
的 复杂 特性 。 还 介绍 了 RCurl 组 件 ， 它 为 把 R 作 为 HTTP 客 户 端 以 及 用 于 其 他 协议 提供 了 非常 好 的 辅助 功能 。 


也 许 会 有 一 些 R 用 户 已 经 利用 download.file () 进行 了 一 些 基本 的 网 络 抓 取 工 作 ， 并 因此 无 视 RCurl 和 libcurl 大 部 分 指定 高 级 HTTP 请 求 的 
寺 性 。 我 们 在 前 面 讲 过 ，RCurl 工 具 箱 提供 了 大 量 方便 的 特性 ， 即 便 是 把 它 用 于 基本 的 网 络 抓 取 任务 也 是 很 划算 的 。 实 际 上 ， 昌 然 该 组 件 对 不 太 
熟悉 HTTP 的 用 户 来 说 不 是 那么 容易 上 手 ， 但 是 要 学 会 基本 功能 并 把 它 用 起 来 还 是 挺 快 的 。 那 些 被 用 户 手 册 里 浩如烟海 的 函数 吓 倒 的 朋友 可 以 试 


试 httr 组 件 ， 它 为 RCurl 最 有 用 的 一 些 特性 进行 了 万 便 的 包 浴 ， 还 提供 了 一 些 更 方便 的 沙 数 。 在 9.1 书 ,我 们 会 回顾 一 些 用 R 进 行 HTTP 通 信 的 场 
景 。 还 会 讲解 如 何 有 效 地 处 理 表 单 、 进 行 HTTP 身 份 验证 、 通 过 HTTP 安 全 版 采集 数据 和 其 他 一 些 内 容 。 


延伸 阅读 





Gourley 和 Totty (2002) 的 著作 给 出 了 HTTP 的 百科 全 书 式 的 介绍 。 更 简短 、 用 处 也 更 少 的 版 本 是 Wong (2000) 的 那 本 《HTTP 袖 珍 参考 
手册 》。 对 于 该 主题 非常 全 面 深入 的 讲解 在 《DNS and BIND) (Liu 和 Albitz 2006) 里 可 以 看 到 ， 虽 然 我 们 怀疑 是 否 这 些 内 容 能 让 你 的 网 络 抓 
取 实用 技能 有 多 大 提高 。 忆 的 来 说 libcurl 在 网 上 有 很 完善 的 文档 ， 见 http://curl.haxx.se/libcurl/， 而 RCurl 和 httr 的 文档 质量 束 没 那么 好 。 至 运 
的 是 ，《XML and Web Technologies for Data Sciences with R} (Nolan 和 Temple Lang 2014) 对 RCurl 的 功能 进行 了 充分 论述 。 


表 5-4 节选 的 HTTP 和 身份 验证 任务 及 其 在 RCutl 或 httr 下 的 实现 方法 


pe i getURL(), getURL- 
iE GET 请 求 
指 害 Hk Content(), getForm() 


指定 HEAD 请 求 httpHEAD () HEAD () 
指定 PUT 请 求 


GET () 





htt pPUT () PUT () 





content <- getURL- 
Content () 


Curl 句柄 规格 指定 curl AJAN getCurlHandle().curl handle () 


指定 curl 选项 


内 容 提取 从 啊 应 中 提取 原始 或 字符 内 容 content () 





.opts config() 


指定 全 局 curl 选项 options (RCUrolOpti- 


set config() 
ons = list()),.opts = 


执行 带 有 curl 选项 的 代码 

给 请 求 加 入 标 头 

通过 一 种 HITP 身份 验证 方法 
进行 身份 验证 

指定 代理 连接 

指定 User-agent 标 头 字段 useragent user agent () 


getCurliInfo (handle) 
Sresponse.code 


with config() 


ae ee httpheaders add_ headers () 
请 求 的 配置 


userpwd authenticate ( ) 





proxy use proxy () 





显示 HTTP 状态 公 http status () 





( 续 ) 
在 请 求 失败 时 显示 及 错误 信息 stop for status () 
在 请 求 失败 时 显示 R 警告 信息 


当 返 回 的 状态 码 正 好 是 200 时 


warn for Status ( ) 


res url ok) 
ile] TRUE = 
AR TARAS HS T 2xx XE url.exists() url success () 
时 返回 TRUE i = 
TC PA TP OR AY ee EF YL] timeout timeout () 
EHARA P im- AIRS AE TR 
verbose verbose () 


把 URL 解析 为 它 的 各 个 组 成 
部 分 
URL 修改 在 解析 的 URL 里 蔡 换 组 成 部 分 
根据 解析 的 URL 构建 URL 字 
‘eB 
76 OAuth 1.0 访问 令 牌 
检索 OAuth 2.0 访问 令 牌 
注册 OAuth 应 用 


parse url (|) 
modify url () 
build url () 


oauth1.0 token () 


oauth2.0 token() 





os oauth app () 
OAuth 注册 一 
描述 OAuth Srei 


给 OAuth 1.0 请 求 添 加 签名 


oauth endpoint () 


sign oauth1.0() 





给 OAuth 2.0 请 求 添 加 签名 


sign oauth2.0() 


其 中 的 函数 以 function () 形式 表达 ，RCur| 高 级 尔 数 里 的 参数 则 以 argument 形 式 表 达 。 


Ad) 
f 


1.HTTP/1.1 版 里 的 常用 方法 有 哪些 ? AA HAS i. 

哪些 万 法 对 于 网 络 抓 取 是 最 重要 的 ? 

2. 说 明 HTTP 消 息 的 基本 组 成 部 分 。 

3. 服 务 器 能 够 响应 的 基本 状态 类 型 有 哪 5 种 ? 

4. 哪 些 标 头 字 段 可 以 用 来 向 服务 器 表明 访问 意图 ? 

5. 当 我 们 从 网 站 抓 取信 息 时 ， 为 什么 cookie 是 必要 甚至 是 有 用 的 ? 


6. 浏 吃 http://curl.haxx.se/libcurl/c/curl easy setopt.html 并 读 取 autoreferer，followlocation 和 customrequest 选 项 。 这 些 选 项 是 
RCurl 组 件 的 一 部 分 吗 ? 


7. 创 建 一 个 叫 作 problemsH 的 处 理 器 ， 在 里 面 定义 一 些 选项 表明 你 的 身份 并 提供 天 于 你 所 使 用 软件 的 信息 。 
8. 利 用 上 面 创建 的 problemsH 处 理 器 下 载 http://www.r-datacollection.com/materials/http/simple.html， 通 过 下 列 方式 : 


(a) 通过 getURL () 并 将 其 保存 为 simple1.html。 


(b) 通过 getBinaryURL () 并 将 其 保存 为 simple2.html。 

(c) 通过 getURLContent () 并 将 其 保存 为 simple3.html。 

(d) 给 处 理 器 加 入 cookie 管 理 功能 并 从 http://www.r-datacollection.com/materials/http/SessionCookie.php 下 载 所 有 的 诗句 。 
9. 创 建 一 个 名 为 info 的 调试 信息 收集 对 象 和 一 个 名 为 problemsD 的 新 处 理 器 ， 利 用 下 列 特性 : 

(a) 利用 cookie 管 理 。 

(b) 把 info 用 作 debugfunction 选 项 。 

(c) 必须 表明 你 的 身份 并 提供 关于 你 所 使 用 软件 的 信息 。 


10. 使 用 problemsD 作 为 处 理 器 ， 复 制 前 面 的 问题 并 把 所 有 请 求 标 头 〈 发 出 的 标 头 ) 保存 到 hout.txt， 把 所 有 响应 标 头 (接收 的 标 头 ) 保存 
到 hin.txt。 用 文本 编辑 器 检查 两 个 文件 ， 并 回答 下 询问 题 。 


(a) 在 这 些 请 求 中 ， 服 务 器 有 多 少 次 索要 了 某 个 特定 的 cookie? 
(b) 在 这 些 请 求 中 ， 服 务 器 为 了 索要 特定 cookie 发 送 了 哪些 参数 ? 
(c) 该 cookie 被 向 服务 器 友 送 了 多 少 次 ? 

(d) 作为 cookie 发 送 给 服务 器 的 是 哪些 参数 / 值 ? 


(e) 研究 problemsD 执 行 的 最 后 一 个 请 求 中 的 细节 ， 特 别 是 : 响应 码 、 完 成 请 求 花费 的 时 间 、 下 载 的 大 小 、 下 载 速度 、cookie 清 单 、 请 
求 被 重 定向 的 次 数 和 响应 的 内 容 类 型 。 


11. 把 下 列 选项 声明 为 所 有 RCurl 函 数 的 默认 选项 : 
(a) 允许 服务 器 重 定向 。 

(b) 重 定向 次 数 的 最 大 值 是 10。 

(c) 表明 你 自己 和 使 用 软件 的 身份 。 

(d) 支持 cookie 管 理 。 


创建 一 个 名 为 problemsG 的 新 处 理 器 。 通 过 使 用 getURL () 和 problemsG 下 载 http://httpbin.org/cookies/set? 
myname=Eddie, http://httpbin.org/redirect/20， 以 及 http://httpbin.org/headers， 检 查 你 的 声明 是 否 有 效 。 


12. 编 写 一 个 名 为 presentHTTP () 的 函数 ， 以 可 读 格 式 打印 标 头 和 内 容 信息 。 使 用 str_ split () 和 cat () 解决 这 个 问题 。 


13. 创 建 一 个 调试 信息 采集 器 对 象 info， 或 重 置 你 在 前 面 的 习题 里 建 好 的 那个 。 创 建 一 个 名 为 problemsM 的 新 处 理 器 ， 把 info 的 update 函 
数 作 为 debugfunction 参 数 。 


(a) 使 用 readLines () 读 取 http://www.r-datacollection.com/materials/http/bunchoffiles.html 并 放 到 一 个 名 为 urls 的 向 量 中 。 


(b) 使 用 下 列 函 数 下 载 里 面 的 文件 并 将 其 保存 到 磁盘 上 : getURL () 、getURLContent () 、download.file () 。 文 件 名 的 格式 如 
下 : geturl1.html, geturl2.html, http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15597/OEBPS/Text/...; 
geturlcontent1.html, geturlcontent2.html, http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/15597/OEBPS/Text/...; downloadfile1.html, downloadfile2.html, 
(c) 哪个 函数 能 接受 url 向 量 作为 参数 ? 


14. 使 用 getForm () 和 postForm () [@)http://www.r-datacollection.com/materials/http/return.phpAIA5 S$ Bisa Kee 
getParameters 和 postParameters 对 象 中 返回 的 文档 。 


15. 用 httr 国 数 复制 下 列 RCurl 命 令 : 


(a) getURL ("www.r-datacollection.com/index.html", useragent = 
"R", httpheader = c(From = your@email.address) ) 


(b) getForm("www.r-datacollection.com/materials/http/GETexample 


.php", name = "Eddie", age = 32) 
(c) postForm("www.r-datacollection.com/materials/http/POSTexample 
.php", name = "Eddie", age = 32, style = "post") 
(d) getCurlHandle(useragent ="R", httpheader = c(from 
= "your@email.address"), followlocation = TRUE, 
cookiefile = "") 
第 6 草 AJAX 


到 目前 为 止 ， 在 本 书 里 你 已 经 熟悉 了 HTML 用 于 构建 网 页 内 容 的 丰富 多 彩 的 标记 词汇 〈 第 2 章 ) ， 以 及 HTTP 这 个 从 Web 服 务 器 请 求 信息 的 
主要 协议 (第 5 草 ) 。 把 它们 配合 起 来 以 后 ， 这 两 种 技术 不 仅 能 为 几乎 所 有 Web 服 务 提 供 基 础 平台 ， 还 为 信息 在 网 络 上 的 传播 定义 了 一 个 可 靠 的 
基础 染 构 。 


即使 它们 很 热门 ，HTML/HTTP 对 于 用 尸 访问 信息 的 万 式 还 是 有 严格 的 限制 。 如 果 你 忌 结 了 我 们 之 前 介绍 的 例子 ， 束 会 友 现 HTML/HTTP 基 
础 以 构 意 味 着 在 一 个 页 面 布 局 中 相当 静态 地 显示 内 容 ， 而 这 些 内 容 是 通过 用 户 友 起 的 顺序 进 代 的 请 求 来 获取 的 。 如 果 要 创建 更 为 动态 的 信息 显 
示 ， 也 就 是 我 们 在 标准 的 桌面 应 用 里 习以为常 的 形式 ， 它 们 对 此 是 无 能 为 力 的 ， 从 这 个 方面 ,HTML/HTTP 内 在 的 不 灵活 性 表现 得 最 为 明显 。 在 
从 服务 器 接收 了 HTML 网 页 之 后 ， 屏 幕 的 显示 融 不 会 改变 ， 因 为 HTTP 没 有 提供 下 载 完 网 页 后 再 对 它 进行 更 新 的 机 制 。 阻 碍 HTMLVHTTP 以 更 加 
动态 的 方式 提供 内 容 的 问题 是 它们 缺乏 三 个 关键 元 素 : 


1) 在 浏览 器 里 (而 不 仅仅 是 在 服务 器 端 ) 记录 用 户 行 为 的 机 制 。 
2) 对 事件 产生 咽 应 的 脚本 引擎 。 
3) 用 于 异步 获取 信息 的 更 多 样 化 的 数据 请 求 机 制 。 


由 于 HTMLVHTTP 从 技术 角度 无 法 提供 上 述 任何 一 个 特性 ， 在 过 去 的 15 年 中 ， 一 系列 附加 的 网 络 技术 逐步 进入 现代 Web 开 发 者 的 工具 箱 。 
这 个 转变 中 的 关键 角色 是 汇总 于 AJAX 这 个 术语 下 的 一 组 技术 ， 这 里 的 AJAX 就 是 “异步 JavaScript 和 XML (Asynchronous JavaScript and 
XML) ”的 简称 。AJAX 已 经 成 为 主要 的 网 络 技术 ， 以 Facebook、Twitter、Google 服 务 以 及 任何 类 型 的 购物 平台 为 代表 的 现代 Web 应 用 的 成 
熟 ， 在 很 大 程度 上 都 要 归功 于 它 的 出 现 。 


时 然 从 用 户 的 角度 来 看 ， 通 过 AJAX 改 进 的 网 站 有 巨大 的 优势 ， 但 是 这 些 网 站 也 给 我 们 自动 采集 网 络 数据 的 工作 市 来 了 困难 。 这 是 因为 通过 
AJAX 改 进 的 网 站 已 经 明显 偏离 了 静态 HTMLVHTTP 网 站 模型 ， 在 这 种 模型 里 ， 通 过 HTTP 请 求 的 网 页 对 所 有 用 户 的 显示 是 相同 的 ， 而 且 所 有 显示 
在 屏幕 上 的 信息 都 是 预先 传输 的 。 这 给 需要 来 集 网 络 数据 的 分 析 者 市 来 了 严重 的 障碍 ， 因 为 如 果 在 向 网 站 发 出 请 求 后 ， 信 息 是 迭代 式 加 载 的 ， 
简单 的 HTTP GET 请 求 ( 见 5.1.4 节 ) 芍 怕 束 不 适用 了 。 我 们 会 看 到 ， 解 决 这 个 问题 的 关键 在 于 搞 清楚 我 们 感 兴趣 的 数据 是 在 哪个 时 间 点 加 载 
的 ， 并 运用 这 个 信息 去 追踪 数据 源 。 


本 章 剩 下 的 部 分 会 介绍 把 静态 网 站 转变 为 动态 HTML 的 AJAX 技 术 。 我 们 会 重点 介绍 AJAX 背 后 的 核心 思想 ， 并 根据 它 来 讲解 动态 数据 查找 的 
解决 办 法 。 在 6.1 节 ， 我 们 先 介 绍 有 关 Web 内 容 最 流行 的 编程 语言 JavaScript， 并 展示 它 是 如 何 通 过 DOM 操 作 把 HTML 网 站 转化 为 动态 网 页 的 。 
在 6.2 节 ， 我 们 会 讨论 XMLHttpRequest， 这 是 一 个 用 于 浏览 器 一 一 服务 器 通信 的 应 用 编程 接口 (Application Programming 
Interface, API) 和 动态 Web 应 用 中 重要 的 数据 获取 机 制 。 最 后 ， 要 解决 AJAX 带 来 的 问题 ， 在 6.3 节 我 们 会 讲解 如 何 利用 浏览 器 实现 的 开发 者 
工具 (Developer Tool) 帮助 看 清 网 页 的 基础 结构 ， 并 追踪 动态 数据 请 求 的 源头 。 


6.1 JavaScript 


JavaScript 编 程 语言 在 AJAX 这 一 组 技术 中 具有 举足轻重 的 地 位 。 它 在 1995 年 由 Netscape 的 Brendan Eich 开 上 友 出 来 ， 是 一 个 完整 的 高 级 编 
程 语 言 (参见 Crockford 2008) 。 让 JavaScript 区 别 于 其 他 语言 的 是 它 和 其 他 Web 技 术 (HTML, CSS, DOM=) 的 无 颖 集成 ， 以 及 所 有 现 
代 浏 览 器 的 支持 ， 这 些 浏览 器 都 具有 解释 JavaScript 代 码 的 强力 引擎 。 因 为 JavaScript 已 经 成 为 Web 应 用 架构 里 重要 的 一 部 分 ， 该 语言 已 经 进入 
了 W3C 网 络 标准 。 类 似 于 R 的 组 件 系 统 ，JavaScript 里 的 额外 功能 也 是 通过 利用 库 来 引入 的 。 实 际 上 ， 大 部 分 Web 开 发 任务 都 已 经 不 再 通过 原生 
JavaScript 代 码 来 执行 ， 而 是 利用 一 些 专用 的 JavaScript 库 来 实现 。 我 们 在 本 章 的 例子 中 也 遵循 这 种 实践 ， 利 用 来 自 jQuery 这 个 自述 为 “ 少 写 多 
做 ”的 库 的 功能 ， 重 点 关注 简化 对 DOM 的 操作 。 


6.1.1 _ Javascript 的 使 用 方式 


要 认识 原生 JavaScript， 重 要 的 是 了 解 使 用 其 功能 对 HTML 进 行 改进 的 三 种 方法 。 内 馈 代 码 出 现 的 固定 位 置 是 HTML 的 <script> 标 签 内 部 
(B012.3.1075) 。 这 些 标签 通 党 位 于 网 页 的 <head> 段 中 ， 但 它们 也 可 以 放 在 网 页 的 其 他 任何 位 置 。 另 一 种 万 式 是 通过 传递 给 <script> 元 素 里 
scr 属 性 的 路 径 来 引用 一 个 存放 在 外 部 的 JavaScript 代 码 文 件 。 这 种 万 式 有 助 于 把 HTML 和 JavaScript 文 件 分 开放 在 两 个 位 置 ， 这 样 可 以 简化 维护 
工作 。 最 后 ，JavaScript 代 码 可 以 直接 出 现在 特定 HTML 元 素 的 某 个 属性 里 ， 即 所 谓 的 事件 处 理 器 。 不 管用 了 哪 种 方式 ， 通 过 JavaScript 改 进 的 
HTML 文 件 都 需要 浏览 器 不 仅 能 解析 HTML 内 容 并 构建 DOM ， 而 且 要 能 读 取 Javascript 代 码 并 执行 其 中 的 命令 。 下 面 通过 Javascript 的 DOM 操 
作 功 能 来 讲解 这 个 过 程 。 


6.1.2 ”DOM 操作 


JavaScript 的 一 种 流行 应 用 是 在 当前 浏览 器 显示 中 产生 某 种 对 信息 或 表现 的 改变 。 这 些 修改 称 为 DOM 操 作 ， 它 们 构成 了 产生 动态 浏览 器 行 
为 的 基本 过 程 。JavaScript 支 持 的 修改 方式 是 五 花 八 门 的 : HTML 元 素 可 以 被 删除 、 添 加 或 移动 ， 任 何 HTML 元 素 的 属性 也 可 以 添加 或 改变 ， 或 
者 也 可 以 修改 CSS 样 式 。 为 了 展示 如 何 运用 这 些 脚本 ， 我 们 可 以 通过 fortunes1.html 来 看 看 轻 量 级 的 JavaSscript 改 进 网 页 。 


] <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN"> 
2 <html> 


4 <script type="text/javascript" src="jquery-1.8.0.min.js"></script> 





5 <script type="text/javascript" src="scriptl.js"></script> 


<head> 


8 <title>Collected R wisdoms</title> 
9 </head> 


1] <body> 

12 <div id="R Inventor" lang="english" date="June/2003"> 

13 <hl>Robert Gentleman</h1> 

14 <p><i>'What we have is nice, but we need something very different'</i></p> 
15 <p><b>Source: </b>Statistical Computing 2003, Reisensburg</p> 

16 </div> 


18 <div lang="english" date="October/2011"> 

19 <hl>Rolf Turner</hl> 

20 <p><i>'R is wonderful, but it cannot work magic'</i> <br><emph>answering a 
request for automatic generation of 'data from a known mean and 95% CI’ 
</emph></p> 

21 <p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help">R- 
help</a></p> 

22 </div> 


24 <address><a href="http://www.r-datacollection.com"><i>The book homepage</i></a> 
</address> 

25 </body> 

26 </html> 





这 部 分 代码 的 主要 部 分 和 我 们 在 2.4.1 节 介绍 的 fortunes 例 子 是 相同 的 。 对 该 文件 的 唯一 修改 是 出 现在 第 4 行 和 第 5 行 的 新 增 代 码 。HTML 的 
<script> 元 素 提供 了 把 HTML 和 用 其 他 脚本 语言 实现 的 功能 进行 集成 的 方法 。 其 中 使 用 的 脚本 语言 类 型 是 通过 type 属 性 设 定 的 。 由 于 浏览 器 会 
默认 藤 入 的 代码 是 用 JavaScript 编 写 的 ， 我 们 在 这 个 例子 里 也 可 以 不 声明 这 个 属性 。 这 里 是 通过 引用 万 式 引 入 JavaScript 代 码 的 ， 因 为 这 有 助 于 
强调 尼 和 HTML 两 种 文档 在 概念 上 的 差别 并 让 代码 更 为 清晰 。 在 第 4 行 引 用 了 jQuery 库 ， 所 向 HTML 网 页 所 在 文件 夹 里 已 有 的 一 份 拷贝 。 通 过 3 引 
用 query-1.8.0.minjs 文 件 ， jQuery 融 在 整个 程序 里 可 用 了 。 下 一 行 引 用 了 script1js 文 件 ， 它 包含 了 负责 修改 DOM 的 代码 。 要 碍 看 该 文件 的 内 
容 ， 你 可 以 把 它 在 任何 文字 处 理 器 程序 里 打开 : 


$ (document) .ready(function() { 
$("p") -hide() ; 
$("h1") .click (function () { 
S (this) .nextAll().slideToggle (300) ; 


}); 
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}); 





在 解释 这 些 脚 本 之 前 ， 先 花 点 时 间 从 http://www.r-datacollection.com 项 部 的 materials 子 页 面 下 载 fortunes1.htm| 文 件 ， 并 在 浏览 器 打 
开 看 看 它 和 2.4.1 节 的 范例 网 页 有 何不 同 。 打 开 文 件 后 ， 你 应 该 能 看 到 由 人 名 构成 的 两 个 标题 ， 以 及 一 个 指向 本 书 主页 的 超 链 接 ( 见 图 6-1a) 。 
显然 ， 菏 些 包含 在 HTML 代 码 里 的 信息 ， 如 语录 和 来 源 ， 在 浏览 器 显示 网 页 的 时 候 被 隐藏 了 。 假 定 你 的 浏 狗 器 支持 JavaScript， 操 击 其 中 的 一 个 
标题 束 会 局 动 一 个 下 滑 的 变换 ， 和 语录 相关 的 更 多 内 容 会 变 成 可 见 的 ( 见 图 6-1b) 。 表 次 点 击 标题 就 会 重新 隐藏 这 些 内 容 。 刚 才 我 们 看 到 的 动 
态 效果 束 是 在 script1.js 里 的 代码 的 运行 结果 。 要 搞 明 日 这 些 效 果 是 如 何 产 生 的 ， 残 需要 我 们 逐 行 分 析 这 里 的 代码 并 讨论 它 的 作用 |。 


a) 初始 状态 
Robert Gentleman 


Rolf Turner 


The book homepa 





' H — éi 3 © 
b 点 击 “Robert Gentleman” Z Jr 


Robert Gentleman 





Whar we have is nice, but we need something very different 


Source: Statistical Computing 2003, Reisensburg 


Rolf Turner 





The book homepave 





图 6-1 用 Javasctipt 增 强 的 fortunes1.html 


第 一 行 开 始 是 $ () 操作 符 ， 这 是 jQuery 在 DOM 里 选择 元 素 的 方法 。 在 括号 里 ,我 们 放 进 去 的 是 document， 这 样 就 指定 了 所 有 在 DOM 中 
定义 的 元 素 都 会 被 选中 。$ () 操作 符 返 回 的 选中 元 素 会 被 传递 给 ready () 方法 。 本 质 上 ， 网 页 就 绪 处 理 器 ready () 会 通知 脚本 暂停 所 有 
JavaScript 代 码 的 执行 ， 直 人 到 整个 DOM 在 浏览 器 里 构建 完成 ， 也 束 是 直到 所 有 的 HTML 元 素 都 人 到位。 这 对 于 任何 大 小 合理 的 HTML 文 件 都 是 必 
要 的 ， 因 为 浏览 器 需要 花 一 些 时 间 完成 DOM 的 构建 。 如 果 在 所 有 HTML 信 息 加 载 完 成 之 前 不 通知 脚本 暂停 执行 ， 就 会 导致 脚本 对 一 些 在 DOM 
里 还 不 存在 的 元 素 进行 操作 的 问题 。 核 心 的 部 分 从 第 二 行 开始 ， 它 定义 了 网 页 的 动态 效果 。 这 里 又 一 次 采用 了 $ () 操作 符 ， 不 过 这 次 它 只 选中 
了 文档 中 所 有 的 <p> 节 操 。 正 如 你 在 fortunes1.html 中 所 见 ， 这 些 <p> 市 点 是 包 售 了 有 关 语 录 及 其 来 源 的 更 多 信息 的 元 素 。 对 所 有 段落 节点 进 
行 的 选择 又 被 传递 给 了 hide () 方法 ， 访 方法 产生 了 在 页 面 急 始 化 阶段 把 所 有 <p> 段 沙 元 素 隐 藏 起 来 的 效果 。 第 3 行 指 定 选中 网 页 中 所有 的 
<h1> 标 题 节点 ， 这 些 节 点 用 来 标记 发 表 相关 语录 的 人 名 。 我 们 给 这 些 选中 的 节点 绑 定 了 一 个 关于 “点 击 ” 的 JavaScript 事 件 处 理 器 。 这 个 
click () 处 理 器 能 在 点 击 浏览 器 里 某 个 <h1> 元 素 的 时 候 识别 该 事件 并 触发 一 个 动作 。 我 们 需要 的 动作 是 在 第 3~5 行 的 大 括号 里 定义 的 。 在 第 4 
行 ， 首 先 通过 $ (this) 返回 发 生 了 点 击 事件 的 那个 元 素 。nextAll () 方法 则 会 选中 所 有 发 生 点 击 事件 的 节点 下 面 所 带 的 节点 (DOM 的 关系 请 


参见 4.1 节 ) FAKED RAgBeEslideToggle () 方法 ， 该 万 法 定义 了 比较 慢 (30052) 的 切换 效果 ， 让 被 选中 的 元 素 依 次 淡 入 淡出 。 


在 基本 概念 层面 ， 这 个 例子 说 明了 在 JavaScript 改 进 的 网 站 里 ，HTML 代 码 和 浏览 器 里 显示 的 信息 并 不 一 定 完全 相同 。 这 是 归功 于 DOM 的 
灵活 性 以 及 Javascript 操 作 HTML 元 素 的 能 力 ， 例 如 ， 让 它们 淡 入 淡出 。 不 过 ， 这 种 技术 对 于 从 网 页 中 抓 取 数据 的 任务 有 何 影响 呢 ” DOM 操 作 
是 否 会 导致 利用 前 面 介绍 的 工具 进行 抓 取 的 过 程 复杂 化 ? 为 了 分 析 这 些 问题 ， 我 们 先 把 fortunes1.html 解 析 到 一 个 R 对 和 象 里 ， 并 显示 它 的 内 容 : 


R> library (XML) 
R> (fortunesl1 <- htmlParse("fortunesl1.html1") ) 
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN"> 
<html> 
<head> 
<script type="text/javascript" src="jquery-1.8.0.min.js"></script><script 
type="text/javascript" src="scriptl.js"></script><title>Collected R wisdoms 
</title> 
</head> 
<body> 
<div id="R Inventor" lang="english" date="June/2003"> 
<hi>Robert Gentleman</h1> 
<p><i>'What we have is nice, but we need something very different'</i></p> 
<p><b>Source: </b>Statistical Computing 2003, Reisensburg</p> 
</div> 


<div lang="english" date="October/2011"> 


<hi>Rolf Turner</hl1> 

<p><i>'R is wonderful, but it cannot work magic'</i> <br><emph>answering a 

request for automatic generation of 'data from a known mean and 95% CI' 
</emph></p> 

<p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help">R- 
help</a></p> 

</div> 


<address><a href="http://www.r-datacollection.com"><i>The book homepage</i></a> 
</address> 

</body> 

</html> 


显然 ， 该 网 页 的 所 有 信息 都 包含 在 HTML 文 件 里 ， 并 可 以 通过 我 们 之 前 介绍 的 HTTP 请 求 、 解 析 和 提取 例 程 进行 访问 。 正 如 我 们 在 后 续 的 讲 
解 中 会 看 到 的 ， 并 不 是 所 有 的 情况 都 会 这 么 幸运 。 


6.2 XHR 
HTTP 协 议 的 一 个 局 限 之 处 是 客户 端 和 服务 器 之 间 的 通信 要 遵循 请 求 -响应 的 同步 模式 。 同 步 的 通信 意味 着 ， 在 Web 服 务 器 接收 、 处 理 请 求 
并 发 送 一 个 新 的 网 页 的 过 程 中 ， 用 户 和 浏览 器 的 交互 是 无 效 的 。 


要 支持 类 似 桌 面 应 用 的 持续 化 用 尸体 验 ， 就 需要 更 灵活 的 数据 交换 机 制 。 支 持 在 浏览 器 和 Web 服 务 器 之 间 进 行 持续 的 信息 交换 的 流行 方法 
是 所 谓 的 XMLHttpRequest (XHR) ， 它 是 一 个 在 几乎 所 有 现代 Web 浏 览 器 里 都 有 实现 的 接口 。 它 支持 以 异步 方式 发 起 对 Web 服 务 器 的 HTTP 
或 HTTPS 请 求 。XHR 的 核心 用 途 是 让 浏览 器 能 在 后 台 获 取 额 外 的 信息 ， 而 不 会 干扰 用 户 在 网 页 上 的 操作 。 


要 说 明 这 个 过 程 ， 我 们 来 看 看 XHR 改 进 后 的 通信 模型 图 例 ， 如 图 6-2 所 示 。 和 传统 的 HTTP 通 信 过 程 (参见 5.1.1 书 ) 一 样 ，XHR 也 提供 了 一 


套 在 客 尸 端 和 服务 器 之 间 交 换 数 据 的 机 制 ， 一 个 典型 的 通信 过 程 如 下 : 


| 
HTTP 服 务 器 
XHR JE] pa] PKI A 应 
Ont 





图 6-2 ”采用 XMLHttpRequest 的 用 户 -服务 器 通信 流程 ， 改 编 自 Stepb et al. (2012) 


1) 通常 情况 下 (但 也 不 是 必然 的 ) ， 网 页 的 用 户 同 时 也 是 AJAX 请 求 的 友 起 者 。 友 起 的 事件 可 以 是 任何 类 型 的 浏览 器 可 识别 事件 ， 例 如 ， 
对 一 个 按钮 的 点 击 。 然 后 Javascript 会 实例 化 一 个 XHR 对 多， 该 对 象 融会 作为 友 出 请 求 的 对 多， 也 可 以 在 变 对 象 里 通过 一 个 回调 阔 数 来 定义 对 所 
获取 数据 的 使 用 万 式 。 


2) 这 个 XHR 对 象 向 服务 器 友 起 一 个 对 特定 文件 的 请 求 。 这 个 请 求 可 以 通过 HTTP 或 HTTPS 发 送 。 由 于 JavaScript 的 同 源 政 策 (Same Origin 
Policy) ， 跨 域 请 求 在 本 地 AJAX 应 用 里 是 禁止 的 ， 这 意味 着 被 请 求 的 文件 必须 和 当前 网 页 处 于 相同 的 域 里 。 因 为 请 求 是 在 后 台 发 出 的 ， 所 以 用 
户 可 以 随意 地 与 网 站 继续 交互 


3) 在 服务 器 端 ， 请 求 会 被 接收 和 处 理 ， 然 后 包含 数据 在 内 的 响应 会 通过 XHR 对 象 友 送 回 浏览 器 客户 端 。 


4) 回 到 浏览 器 客户 端 ， 服 务 器 友 回 的 数据 会 被 接收 ， 一 个 事件 会 被 触 友 并 被 某 个 事件 处 理 器 捕获 。 如 果 文件 的 内 容 需 要 在 网 页 上 显示 ， 数 
据 文 件 束 可 以 由 之 前 定义 的 事件 处 理 回调 消 数 接手 。 通 过 这 个 处 理 器 可 以 操作 数据 内 容 ， 把 它 展 示 在 浏览 器 里 。 一 旦 处 理 器 整理 完 这 些 信息 ， 
束 可 以 把 数据 送 回 到 当前 的 DOM 并 在 屏幕 上 显示 。 


为 了 看 到 XHR 的 实际 使 用 情况 ， 我 们 现在 讨论 两 个 应 用 。 
6.2.1 ”加 载 外 部 HTML/XML 文 档 
通过 XHR 请 求 从 服务 器 获取 的 最 简单 数据 类 型 就 是 包含 HTML 代 码 的 网 页 。 我 们 这 次 作为 示例 的 任务 ， 就 是 获取 一 些 HTML 代 码 并 将 其 传 回 


当前 网 页 里 。 要 在 jQuery 里 实现 这 个 任务 ， 适 用 的 是 它 的 load () 方法 。load () 方法 会 实例 化 一 个 XHR 对 象 ， 该 对 象 会 向 服务 器 友 送 一 个 
HTTP GET 请 求 并 接收 发 回 的 数据 。 看 看 下 面 名 为 fortunes2.htm| 的 空 HTML 文 件 ， 它 会 作为 我 们 的 占 位 文档 模板 : 


] <!DOCTYPE HTML PUBLIC "_//TETF//DTD HTML / /EN"> 
2 <html> 


<script type="text/javascript" src="jquery-1.8.0.min.js"></script> 


> <script type="text/javascript" src="script2.js"></script> 


7 <head> 
8 <title>Collected R wisdoms</title> 
</head> 


l] <body> 


13 <address><a href="http://www.r-datacollection.com"><i>The book homepage</i></a> 
</address> 

14 </body> 

15 </html> 





我 们 的 任务 是 把 来 自 另 一 个 HTML 网 页 的 相关 信息 插入 fortunes2.html 里 。 完 成 这 个 任务 的 关键 又 是 在 第 5 行 引 用 的 JavaScript 代 码 。 


$ (document) .ready (function() { 
$ ("body") .load("quotes/quotes.html", function() { 
alert ("Quotes.html was fetched."); 
Hs 
} ) ; 


LI = 


mn A 





和 之 前 的 脚本 一 样 ，script2.js 的 起 始 处理 也 是 文档 就 绪 事件 处 理 器 ready () ， 这 样 能 确保 在 执行 这 段 脚本 之 前 DOM 已 经 加 载 完 毕 。 在 第 
二 行 我 们 发 起 了 一 个 对 <body> 节 点 的 选择 操作 。<body> 节 点 在 这 里 作为 一 个 销 点 ， 用 来 链接 从 XHR 数 据 请 求 返回 的 数据 。 脚 本 的 核心 部 分 使 
用 Query 的 load () 方法 来 获取 从 “quotes/quotes.html” 得 到 的 信息 。load () 方法 创建 一 个 上 HR 对 象 ， 该 对 象 不 仅 负 责 从 服务 器 请 求 信 
息 ， 还 要 把 得 到 的 信息 送 回 HTML 网 页 。quotes.html 文 件 里 包含 了 带 有 标记 的 语录 。 


l <div id="R Inventor" lang="english" date="June/2003"> 

2 <hl>Robert Gentleman</h1> 

3 <p><i>'What we have is nice, but we need something very different'</i></p> 
4 <p><b>Source: </b>Statistical Computing 2003, Reisensburg</p> 

5 </div> 


7 <div lang="english" date="October/2011"> 
8 <h1l>Rolf Turner</hl1> 
9 <p><i>'R is wonderful, but it cannot work magic'</i> <br><emph>answering a 


request for automatic generation of 'data from a known mean and 95% CI' 


</emph></p> 

10 <p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help">R- 
help</a></p> 

11 </div> 





作为 load () MERD, RIES TAARA, CHEXHRIBKELIOA EN REVS. 1658377, ce, cue 
框 ， 在 其 中 显示 引号 里 面 的 文字 。 这 个 提示 操作 纯粹 作为 示例 ， 把 它 忽略 掉 也 不 会 产生 任何 问题 。 要 检查 这 个 方法 是 否 成 功 ， 可 以 在 浏览 器 
打开 fortunes2.html 并 把 其 中 显示 的 信息 和 上 面 标 出 的 HTML 代 码 进行 比较 。 


这 个 XHR 对 象 是 如 何 对 从 语录 里 获取 信息 的 操作 形成 干扰 的 呢 ? 我 们 再 比较 一 下 浏览 器 显示 的 信息 和 在 R 里 通过 解析 文档 获取 的 内 容 : 


R> library (XML) 

R> (fortunes2 <- htmlParse("fortunes2.html") ) 

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN"> 

<html> 

<head> 

<script type="text/javascript" src="jquery-1.8.0.min.js"></script><script 
type="text/javascript" src="script2.js"></script><title>Collected R wisdoms</title> 
</head> 

<body> 

<address><a href="http://www.r-datacollection.com"><i>The book homepage</i></a> 
</address> 

</body> 

</html> 


和 前 面 的 例子 不 同 ， 我 们 可 以 看 到 浏览 器 里 显示 的 信息 不 包括 在 解析 的 文档 里 。 正 如 你 可 能 已 经 猜 到 的 ， 出 现 这 个 情况 的 原因 是 ， 那 个 
XHR 对 象 只 会 在 占 位 HTML 文 件 被 请 求 之 后 才 加 载 语录 信息 。 


6.2.2 加载 JSON 


虽然 AJAX 里 的 X 代 表 了 XML 格式 ， 但 是 XHR 请 求 并 不 局 限于 接收 以 这 种 方式 格式 化 的 数据 。 我 们 在 第 3 章 介绍 了 JsON 格 式 ， 它 已 经 成 为 了 
一 种 可 行 的 替代 格式 ， 而 且 凭 借 其 简练 和 得 到 的 广泛 支持 ， 被 很 多 Web 开 发 者 所 偏爱 。jQuery 不 仅 提 供 了 通过 XHR 请 求 获 取 JSON 的 方法 ,还 
包括 了 辅助 进一步 处 理 JSON 文 件 的 解析 立 数 。 和 前 面 的 例子 相 比 ， 我 们 需要 提醒 自己，JSON 内 容 在 浏 览 器 里 的 显示 是 无 格式 的 。 因 此 在 本 例 
中 ， 我 们 首先 会 讲解 如 何 指示 jQuery 访问 JSON 文 件 ， 其 次 是 如 何 把 JSON 信 息 转 化 为 HTML 标 签 ， 以 获得 更 清晰 和 更 有 吸引 力 的 信息 显示 方 
式 。 我 们 来 看 一 下 作为 通用 占 位 HTML 网 页 模板 的 fortunes3.html 文 件 。 


] <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN"> 

2 <html> <head> 

3 <title>Collected R wisdoms (JavaScript Extension) </title> 
4 </head> 

3 <body> 


7 <button id="quoteButton">Click for quotes!</button> 


9 </body> 


<script type="text/javascript" src="jquery-1.8.0.min.js"></script> 


12 <script type="text/javascript" src="script3.js"></script> 


14 <address><a href="http://www.r-datacollection.com"><i>The book homepage</i></a> 
</address> 
15 </body> </html> 





这 里 新 加 入 的 元 素 是 一 个 HTML 按 钮 元 素 ， 我们 把 quoteButton 作 为 id 分 配给 它 。 在 HTML 代 码 里 有 一 个 对 script3.js 的 引用 。 


$("#quoteButton") .click (function () { 
$.getJSON ("quotes/all quotes.json", function(data) { 
$.each (data, function (key, value) { 


e ùW N 一 


$ ("body") .prepend ("<div date='"+value.date+"'><h1>"+value.author+" 


</hl><p><i>'"+value.quote+"'</i></p><p><b>Source: </b>'"+value. 


source+"'</p></div>") ; 


}); 





我 们 再 直接 打开 fortunes3.html 查 看 该 网 页 的 效果 。 你 应 该 能 看 到 ， 只 要 点 击 里 面 的 按钮 ， 新 的 语录 信息 就 会 显示 出 来 ， 视 澡 上 类 似 于 我 
们 在 fortunes.html 里 看 到 过 的 效果 。 


让 我 们 把 这 段 脚本 的 各 个 组 成 部 分 拆 解 开 。 在 最 上 面 一 行 ， 访 脚本 发 起 了 对 id 为 quoteButton 的 节点 的 查询 。 该 书 点 馈 绑 定 到 了 点 击 事件 
处 理 器 。 下 一 行 代码 详细 定义 了 点 击 事件 处 理 器 的 功能 。 如 果 发 生 了 点 击 ， 束 会 通过 jQuery 的 getJSON () 方法 友 送 一 个 数据 请 求 。 这 个 方法 
会 做 两 件 事 。 首 先是 通过 HTTP GET 请 求 方式 发 起 对 quotes/all_quotes.json 文 件 的 请 求 并 获取 数据 。 其 次 ， 获 取 的 数据 会 被 一 个 JSON 解 析 器 
所 解析 ， 这 个 过 程 会 把 文件 里 的 键 值 对 重新 组 织 为 可 用 的 JavaScript 对 象 。 这 里 要 请 求 的 文件 指定 为 all_ quotes.json， 它 里 面包 含 了 完整 的 R 名 
言语 录 ， 位 于 名 为 quotes 的 文件 夹 里 。 该 文件 的 前 几 行 如 下 所 示 : 


[ 

"quote": "What we have is nice, but we need something very different.", 
"author": "Robert Gentleman", 

"context": null, 


"source": "Statistical Computing 2003, Reisensburg", 


"date": "June 2003" 
"Quote": TR is wonderful, but it cannot work magic.", 
Fauthor": "ROLE Turner”, 


"Context": "answering a request for automatic generation of 'data from a 
known mean and 95% CI'", 


"source": "R-help", 
"date": "October 2011" 


}， 





第 3 行 友 起 了 一 个 循环 结构 ， 它 对 获取 的 JSON 文 件 的 对 象 进行 挝 代 ， 并 为 其 中 的 key 和 value 变 量 定 义 了 一 个 遂 数 。 该 水 数 首 先 选中 HTML 
网 页 的 <body> 节 点 ， 并 向 该 节点 用 prepends 函 数 插入 括号 里 的 表达 式 。 正 如 你 所 见 ， 这 个 表达 式 混合 了 HTML 标 记 和 某 种 变量 对 象 (用 加 号 
(+) 封闭) ， 我 们 可 以 通过 这 些 对 象 注入 JSON 信 息 。 实 际 上 ， 这 个 语句 会 从 JSON 文 件 的 每 个 对 象 产生 包 仿 数据、 作者、 语录 和 来 源 信 息 的 
类 似 HTML 代 和 码 。 


6.3 ”利用 Web 开 友 者 工具 探 寺 AJAX 
当 网 站 运用 了 更 加 复杂 的 请 求 方法 时 ， 只 是 粗略 地 查看 源码 通常 还 不 足以 制定 我 们 的 R 抓 取 例 程 。 为 了 充分 理解 网 页 的 核心 结构 和 功能 ， 我 


们 需要 钻研 得 更 深入 一 些 。 尽 管 我 们 对 R 环 境 先 党 有 加 ， 把 R 用 在 网 页 结构 分 析 上 却 会 给 这 项 工作 市 来 不 必要 的 烦琐 程序 ， 而 且 至 少 对 于 AJAX 改 
进 的 网 站 而 言 ，R 根 本 没有 提供 必要 的 结构 分 析 功 能 。 相 反 ， 我 们 可 以 直接 在 浏览 器 里 查看 网 页 。 主 流 的 浏览 器 都 自 市 相关 支持 功能 ， 可 以 把 它 


自己 转变 为 开发 Web 项 目的 强 有 力 环境 ， 以 及 网 络 抓 取 的 得 力 助手 。 这 些 工 具 不 仅 有 助 于 在 运行 时 对 网 站 DOM 进 行 操作 ， 也 可 以 用 于 查看 网 络 
性 能 和 通过 JavaScript 触 发 的 活动 。 在 本 节 ， 我 们 会 利用 Google Chrome 的 Web 开 发 者 工具 (Web Developer Tools, WDT) 套件 ， 但 是 在 
所 有 的 主流 浏览 器 客户 端 里 都 会 有 类 似 的 工具 。 


6.3.1 初试 Chrome 的 Web 开 发 者 工具 


我 们 回 到 前 面 介绍 的 fortunes2.html 文 件 ， 它 运用 基于 XHR 的 数据 获取 方式 ， 给 我 们 市 来 了 一 些 麻 烦 。 在 Google Chrome 里 打开 这 个 文 
件 ， 让 自己 再 熟悉 一 下 这 个 网 页 的 结构 。 默 认 情 况 下 ，WDT 是 不 可 见 的 。 要 让 它 出 现在 前 台 ， 你 可 以 在 任何 HTML 元 素 上 右 击 并 选择 Inspect 
Element (检查 元 素 ) 选项 。 这 时 候 Chrome 会 水 平分 割 屏幕 ， 让 下 面 的 面板 显示 WDT， 上 面 的 面板 则 会 显示 fortunes2.htm|I 的 经 典 网 页 视 
图 。 在 WDT (Chrome version 33.0.1750.146) 里 ， 最 上 面 的 一 栏 显 示 8 个 面板 ， 分 别 是 元 素 、 网 络 、 来 源 、 时 间 线 、 运 行 概况 、 资 源 、 审 计 
和 控制 台 (Elements、Network、Sources、Timeline、Profiles、Resources、Audits、Console) ， 它 对 应 了 我 们 可 以 分 析 的 站 点 行为 的 各 
个 方面 。 对 于 我 们 的 工作 而 言 ， 并 不 是 所 有 的 面板 都 很 重要 ， 所 以 6.3.2 节 和 6.3.3 节 会 在 分 析 站 点 结构 并 创建 R 抓 取 例 程 的 线索 下 ， 仅 针对 元 素 
和 网 络 (Elements 和 Network) 面板 进行 讨论 。 


6.3.2 元素 面板 


我 们 可 以 从 元 素 (Elements) 面板 里 了 解 天 于 网 页 HTML 结 构 的 信息 。 它 会 显示 实时 的 DOM 树 ， 也 残 是 任何 时 间 点 显示 的 所 有 HTML 元 
素 。 图 6-3 展 示 了 对 fortunes2.htmlI 打 开 WDT 时 的 情况 。 元 素面 板 对 于 了 解 特定 HTML 代 码 及 其 在 网 页 视图 中 对 应 的 图 形 化 表现 乙 间 的 联系 是 特 
别 有 用 的 。 通 过 把 鼠标 光标 悬 停 在 WDT 中 的 节点 上 ， 对 应 的 元 素 会 在 HTML 页 面 视图 中 高 亮 显示 。 反 过 来 ， 要 确定 在 网 页 视图 中 产生 某 个 元 素 
的 代码 片段 ， 可 以 点 击 面板 栏 右上 角 的 放大 镜 符号 。 现 在 ,一 旦 你 点 击 网 页 视图 里 的 某 个 元 素 ，WDT 束 会 把 DOM 树 里 的 对 应 HTML 元 素 高 亮 显 
示 。 元 素面 板 对 于 创建 可 以 直接 传递 给 R 提 取 函 数 (参见 第 4 章 ) 的 XPath 表达 式 也 很 有 用 。 只 要 在 元 素面 板 里 右 击 某 个 元 素 并 从 菜单 里 选 
#2 “复制 XPath” 即 可 。 


Q_| Elements) Network Sources Timeline Profiles Resources Audits Console = WO x 


Beat Styles | Computed Event Listeners » 
< > 
gh wr EE PEA element.style { + =i g 
Y <bod } 
><div id="R Inventor" lang="english" date="June/2003">..</div> body { user agent stylesheet 
><div lang="english" date="October/2011">..</div> display: block; 
</body> margin: b 8px; 
</html> 





图 6-3 ”元 素面 板 里 的 fottunes2.html 视 图 


6.3.3 ”网 络 面板 


网 络 (Network) 面板 提供 了 有 关 从 网 络 请 求 并 下 载 资源 的 实时 信息 。 因 此 ， 它 是 一 个 查看 由 JavaScript 解 友 的 XHR 对 象 所 友 起 资源 请 求 
的 理想 工具 。 一 定 要 在 加 载 网 页 之 前 打开 了 网络 面板 ， 个 则 请 求 的 情况 融 不 会 被 捕获 。 图 6-4 显 示 加 载 fortunes2.htm| 完 成 乙 后 的 网 络 面板 。 该 面 
板 显示 ， 在 打开 fortunes2.html 之 后 ， 一 共有 4 个 资源 被 请 求 。 该 面板 的 第 一 列 显 示 文 件 名 ， 也 就 是 fortunes2.html、jquery-1.8.0.minJjs、 
script2Jjs 以 及 quotes.html。 第 二 列 提供 了 有 天 传送 该 文件 的 HTTP 请 求 方法 的 信息 。 在 本 例 中 ， 所 有 4 个 文件 都 是 通过 HTTP GET 方 法 请 求 的 。 
下 一 列 显示 的 是 从 服务 器 返回 的 HTTP 状 态 码 (参见 5.1.5 节 ) 。 这 个 信息 在 数据 请 求 友 生 错 误 的 情况 下 就 值得 关注 了 。 类 型 (type) 列 则 说 明了 
文件 的 类 型 ， 如 HTML 或 Javascript。 而 根据 友 起 者 (initiator) 列 的 信息 ， 我 们 会 了 解 触 上 用 请 求 的 文件 是 哪 一 个 。 最 后 ， 大 小 、 时 间 和 时 间 线 
(size、time 和 timeline) 列 提供 了 有 关 被 请 求 资源 的 一 些 辅助 信息 。 


= (Preserve log 


Size à Time 


Content | Latency Timeline 


Method Type Initiator 


~ jquery-1.8.0.min.js 


/examples GET applicatio... (from cache) 


script2.js < 416B 
/examples SA ponam 136 B 


fortunes2.html 一 466B 
/examples 346B 


quotes.html A 585 B 


/examples/quotes dy 5518 





图 6-4 网络 面 板 里 的 fortunes2.html 视 图 


我 们 感 兴趣 的 是 采集 语录 信息 。 因 为 该 信息 并 不 是 源 HTML 的 一 部 分 ， 我 们 融 不 必 深 入 分 析 fortunes2.html| 了 。 至 于 另外 3 个 文件 ， 我 们 可 
以 忽略 jquery-1.8.0.min.js， 因 为 它 只 是 一 个 方法 库 。 虽 然 script2.js 理 论 上 有 可 能 包含 了 我 们 需要 的 语录 信息 ， 但 是 良好 的 Web 开 发 规范 通常 
会 把 数据 和 脚本 代码 分 离 。 根 据 互 矿 原理 ， 我 们 融 可 以 把 quotes.html 认 定 为 获取 语录 信息 可 能 性 最 大 的 候选 者 。 要 更 仔细 地 碍 看， 可 以 点 击 该 
文件 ， 如 图 6-5 所 示 。 从 预览 (Preview) 标签 里 ， 我 们 可 以 观察 到 quotes.html 确 实 包 含 了 这 些 信 息 。 下 一 步 我 们 需要 识别 针对 这 个 特定 文件 
的 请 求 的 URL， 这 样 我 们 就 可 以 把 它 传递 给 R。 这 个 信息 可 以 轻松 地 从 标 头 (Headers) 标签 里 获得 ， 这 个 标签 给 我 们 提供 了 请 求 quotes.html 
时 友 出 的 标 头 信息 。 对 于 目的 而 言 ， 我 们 只 需要 Request URL 字 段 后 面 的 URL， 也 束 是 http://r- 
datacollection.com/materials/ajax/quotes/quotes.html。 有 了 这 个 信息 ， 我 们 就 可 以 回 到 R 会 话 里 ， 并 把 这 个 URL 传 递 给 RCurl 的 
getURL () 命令 : 


R> (fortunes xhr <- getURL("r-datacollection.com/materials/ajax/quotes/ 
guotes.htm1") ) 

ia) “<div id=\"R Inventor\" lang=\"english\" date=\"June/2003\">\n <hl> 
Robert Gentleman</h1>\n <p><i>'What we have is nice, but we need something 
very different'</i></p>\n <p><b>Source: </b>Statistical Computing 2003, 
Reisensburg</p>\n</div>\n\n<div lang=\"english\" date=\"October/2011\">\n 
<h1l>Rolf Turner</h1>\n <p><i>'R is wonderful, but it cannot work magic'</i> 
<br><emph>answering a request for automatic generation of 'data from a known 
mean and 95% CI'</emph></p>\n <p><b>Source: </b><a href=\"https://stat. 
ethz.ch/mailman/listinfo/r-help\">R-help</a></p>\n</div>" 


这 里 看 到 的 结果 确实 包含 了 目标 信息 ， 现 在 我 们 殊 可 以 利用 前 面 介绍 的 所 有 遂 数 来 对 它 进行 处 理 了 。 


x 


Headers | Preview | Response Timing 


Robert Gentleman 


'What we have is nice, but we need something very diferent" 


Source: Statistical Computing 2003, Reisensburg 


Rolf Turner 


'R is wonderful, but it cannot work magic' 
answering a request for automatic generation of 'data from a known mean and 95% CT 


b) 标 头 
| Headers | Preview Response Timing 


Request URL: http: //r-datacollection.com/examples/quotes/quotes.htal 
Request Method: GET 
Status Code: @ 200 OK 
¥ Request Headers view source 
Accept text/htal, */*; g=0.61 
Accept-Encoding: gzip, deflate, sdch 
Accept-Language: de-DE, de; q=0.8, en-US; q=0.6, en; q0. 4 
Cache-Control: max-age=0 
Connection: keep-alive 
Host r-datacollection.com 
Referer: http: //r-datacollection. com/examples/fortunes2. html 
User-Agent Mozilla/S.O (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, Like Gecko) Chrome/33.0.1750.117 Safari/537.36 
X-Requested-With: XMLHttpRequest 
¥ Response Headers view source 





图 6-5 ”网 络 面板 栏目 有 关 quotes.html 的 信息 


小 结 


AJAX 对 于 互联 网 上 各 种 服务 的 用 户 友好 度 产 生 了 深远 的 影响 。 本 章 对 AJAX 的 原理 进行 了 简短 的 介绍 ， 并 尝试 表达 AJAX 和 经 典 HTTP 传 输 内 
容 之 间 概 念 上 的 不 同 。 从 网 络 抓 取 程 序 的 角度 来 看 ，AJAX 构 成 了 一 个 挑战 ， 因 为 它 鼓 励 页 面 样式 结构 (HTML、CSs) 和 要 显示 的 信息 (如 
XML, JSON) 的 分 离 。 因 此 ， 要 从 页 面 获取 数据 ， 仅 仪 下 载 并 解析 前 妆 HTML 代 码 可 能 是 不 够 的 。 笠 运 的 是 ， 这 种 情况 并 不 能 阻止 我 们 的 数据 
抓 取 工作 。 正 如 我 们 所 看 到 的 ，AJAX 请 求 信息 位 于 主要 页 面 所 在 域 的 一 个 文件 中 ， 它 对 于 任何 想 获 取 数 据 的 人 都 是 可 以 访问 到 的 。 利 用 类 似 于 
Chrome 所 提供 的 Web 开 上 友 者 工具 ， 我 们 可 以 奶 漳 文件 的 来 源 并 获取 一 个 URL， 往 往 这 个 URL 能 直接 引导 我 们 找到 感 兴趣 的 数据 源 。 我 们 会 在 讨 
论 作为 这 类 抓 取 问 题 蔡 代 方案 之 一 的 Selenium/Webdriver 框 架 时 (参见 9.1.9 节 ) ， 继 续 分析 这 类 动态 泻 染 页 面 产生 的 问题 。 


延伸 阅读 





要 更 深入 了 解 AJAX， 可 以 参阅 文献 Holdener Ill (2008) 或 stepp et al. (2012) 。 学 习 并 发 现 Chrome Web Developer Tools 的 有 用 特 
性 的 好 方法 是 该 工具 的 参考 资料 页 面 : Google (2014) 或 参考 书 Zakas (2010) 。 


Ad) 
图 


1. 为 什么 AJAX 改 进 的 网 页 通常 对 于 Web 用 户 很 有 价值 ， 对 于 网 络 抓 取 者 却 是 个 障碍 ? 
2. 在 HTML 里 内 入 JavaScript 的 三 种 方法 是 什么 ? 
3. 为 什么 当 目 标 是 从 使 用 动态 HTML 的 网 站 采集 信息 时 ，Web 开 发 者 工具 对 于 网 络 抓 取 特 别 有 用 ? 


4. 回 到 fortunes3.html。 在 网 页 的 两 个 时 间 点 实现 JavaScript alert () 函数 。 第 一 ， 把 该 函数 放 在 网 页 的 <node> 区 段 ， 提 示 文 字 
是 “fortunes3.html successfully loaded! ”。 第 二 ， 打 开 script3.js 并 把 alert () 国 数 也 放 进 去 ， 提 示 文 字 是 “quotes.html successfully 
loaded! ”。 第 三 ， 观 察 网 页 在 浏览 器 里 产生 的 效果 。 


5. 对 fortunes3.html 运 用 适当 的 解析 消 数 并 验证 它 并 不 合 有 我 们 感 兴趣 的 语录 信息 。 
6. 利 用 Web 开 发 者 工具 找到 fortunes3.html 中 语录 信息 的 来 源 。 获 取 请 求 该 文件 的 URL， 并 创建 一 个 解析 它 的 R 例 程 。 
7. 为 fortunes2.html 编 写 一 段 脚本 ， 提 供 语 录 的 来 源 。 执 行 下 列 步 又 : 

(a) 把 fortunes2.html 解 析 到 一 个 名 为 fortunes2 的 R 对 象 中 。 


(b) 编写 一 个 XPath 语句 提取 其 中 Javascript 文 件 的 文件 名 ， 并 创建 一 个 正则 表达 式 来 提取 定制 Javascript 脚 本 的 文件 名 (而 不 是 库 文 
件 ) 。 


(c) 利用 readLines () 导入 Javascript 代 码 ， 并 提取 被 请 求 的 HTML 了 网 页 quotes.htmI 的 文件 路 径 。 
(d) 把 quotes.html 解 析 到 一 个 名 为 quotes 的 R 对 象 里 并 查询 文档 找到 作者 名 。 
8. 对 fortunes3.html 重 复 做 一 远 习 题 7。 并 提取 语录 的 来 源 。 


9. 网 站 http://www.parl.gc.ca/About/Parliament/FederalRidingsHistorWhfer.asp?Language=E&Search=(C 通 过 对 数据 库 的 请 求 提供 
了 有 关 加 拿 大 联邦 选举 候选 人 的 信息 。 


(a) 请 求 所 有 名 为 “Smith” 的 候选 人 的 信息 。 用 Web 开 发 者 工具 查看 实时 的 DOM 树 ， 找 出 返回 信息 的 HTML 标 签 。 
(b) 从 服务 器 请 求 该 信息 用 到 的 是 哪 一 种 机 制 ? 你 能 手工 调整 请 求 来 获取 不 同 候选 人 的 信息 吗 ? 


10. 西 雅 图 市 维护 了 一 个 开放 的 数据 平台 ， 提 供 了 有 关 市 政 服务 的 丰富 信息 。 到 https://data.seattle.gov/Community/Seattle-code- 
violations-database/8agr-hifc 看 一 下 违章 行为 数据 库 。 


(a) 利用 Web 开 发 者 工具 ， 了 解 这 些 数据 库 信 息 存 放 人 在 HTML 里 的 方式 。 


(b) 评价 这 个 数据 请 求 机 制 。 你 能 否 直接 访问 后 台 的 数据 库 ? 


第 / 草 SQL 和 关系 型 数据 库 


处 理 和 分 析 数 据 是 R 的 关键 功能 。 它 有 能 力 处 理 向 量 、 和 矩阵 、 数 组 、 列 表 、 数 据 框 ， 以 及 它们 的 导入 导出 、 汇 上 总、 转换 、 子 集 、 合 并 、 添 
加 、 绘 图 和 分 析 等 。 如 果 标 准 数 据 格式 之 一 不 满足 要 求 ， 也 总 可 以 定义 新 的 格式 并 将 它们 纳入 R 的 数据 家 族 。 例 如 ，sp 组 件 定义 了 一 种 特殊 用 途 
的 数据 对 象 ， 用 来 处 理 空间 数据 (参见 Bivand and Lewin-Koh 2013; Pebesma and Bivand 2005) 。 那 么 ,为 什么 我 们 还 需要 关注 数据 库 和 
另 一 种 叫 SQL 的 语言 呢 ? 


那些 简单 而 日 常 的 流程 ， 例 如 ， 在 线 购物 、 浏 览 图 书馆 目录 、 汇 款 ， 或 者 在 超市 买 糖 果 ， 都 会 涉及 数据 库 。 我 们 几乎 从 未 意识 到 数据 库 的 
重要 作用 ， 因 为 我 们 既 看 不 见 它 ， 也 不 能 直接 和 它 互 动 ， 数 据 库 喜 欢 在 幕后 工作 。 当 数据 对 一 个 项 目 很 关键 时 ， 网 站 管理 员 束 会 依赖 数据 库 ， 
因为 它们 具备 可 靠 性 、 高 效率 、 支 持 多 用 尸 访问 、 近 了 乎 无 限 的 数据 容量 ， 以 及 远程 访问 能 力 。 


自动 化 的 数据 采集 ， 我 们 对 数据 库 感 兴趣 的 原因 有 两 个 : 第 一 ,我们 也许 偶 尔 能 直接 访问 数据 库 ， 因 此 需要 能 够 应 付 这 类 任务 。 第 二 , 也 


是 更 重要 的 一 个 原因 ， 是 我 们 可 以 利用 数据 库 作为 保存 和 管理 数据 的 一 个 工具 。 昌 然 R 有 很 多 有 用 的 数据 管理 工具 ， 但 它们 毕竟 只 是 用 来 分 析 
(而 不 是 保存 ) 数据 的 。 另 外 ， 数 据 库 束 是 专门 为 数据 存储 设计 的 ， 因 此 ， 它 能 提供 R 的 基础 功能 所 不 具备 的 一 些 特性 。 我 们 来 讨论 以 下 情况 。 


“ 你 在 做 一 个 项 目 ， 其 中 的 数据 需要 在 一 个 网 站 上 展示 或 接受 访问 ， 使 用 数据 库 ， 只 需要 一 个 工具 就 可 以 完成 该 项 目 。 


. 在 一 个 数据 采集 项 目 里 ， 你 不 是 一 个 人 采集 所 有 数据 ， 而 是 由 其 他 人 分 别 采集 数据 的 某 些 部 分 ， 通 过 数据 库 ， 你 就 可 以 拥有 一 个 普遍 、 
通用 、 随 时 访问 并 且 可 靠 的 基础 架构 ， 其 他 用 户 可 以 随时 访问 它 。 


: 涉及 多 方 合作 的 情况 下 ， 大 部 分 数据 库 允 许 给 不 同 用 户 定义 不 同 的 权限 ， 即 某 个 用 户 可 能 只 能 读 取 ， 其 他 一 些 人 只 能 访问 某 些 部 分 的 数 
据 ， 还 有 其 他 一 些 人 配备 了 管理 权限 ， 但 不 能 创建 新 用 户 。 


“ 你 手头 的 数据 量 已 经 超出 了 你 的 电脑 可 用 内 存量 ， 而 数据 库 只 受 限于 可 用 的 磁盘 容量 。 实 际 上 ， 数 据 库 甚至 还 可 以 分 布 在 多 个 磁盘 或 多 


.如果 你 的 数据 很 复杂 ， 它 可 能 难以 全 部 写 到 一 个 数据 表 里 ， 而 数据 库 最 适合 存储 这 类 复杂 数据 。 它 们 不 仅 可 以 存储 复杂 数据 结构 ， 而 且 
可 以 查找 并 给 它们 划分 子 集 。 


-你 的 数据 量 很 大 ， 而 你 必须 经 常 对 它们 划分 子 集 并 进行 处 理 。 对 数据 库 进 行 查询 的 速度 是 很 快 的 。 


- 你 的 数据 很 复杂 ， 而 你 要 把 它们 用 于 多 种 用 途 。 例 如 ， 信 息 分 布 在 多 个 表 里 ， 但 是 你 又 需要 根据 当前 的 环境 从 特定 的 表 里 按 照 任 务 的 有 具 
体 要 求 来 组 合 信息 。 使 用 数据 库 可 以 定义 虚拟 表 ， 这 样 不 需要 占用 太 多 磁盘 空间 ， 就 能 让 数据 保持 最 新 并 以 你 指定 的 方式 进行 组 织 。 


-你 关心 数据 的 质量 ， 设 定 了 一 些 规则 来 判定 数据 的 合法 条 件 。 利 用 数据 库 ， 你 就 能 针对 扩展 或 更 新 数据 库 定 义 具 体 的 规则 。 


7.1 节 会 概要 地 讲解 R 和 数据 库 是 如 何 相互 配合 的 ， 并 定义 了 一 些 讨论 数据 库 技术 所 必 不 可 少 的 词汇 。 随 后 ，7.2 节 会 探讨 天 系 型 数据 库 的 基 
本 概念 ， 之 后 是 7.3 节 的 SQL (处 理 关 系 型 数据 库 的 语言 ) 基础 知识 。 在 最 后 一 部 分 (7.4 节 ) ， 我 们 会 学 习 如 何 利用 R 来 处 理 关 系 型 数据 库 ， 即 
建立 连接 、SQL 碍 询 ， 以 及 使 用 提供 数据 库 连 接 的 众多 R 组 件 里 所 包含 的 实用 冰 数 。 


7.1 概况 及 术语 


我 们 首先 系统 地 看 一 下 、SQL、 数 据 库 和 数据 库 管 理 系 统 (DBMS) 是 如 何 配合 使 用 的 (参见 图 7-1) 。 正 如 你 所 见 ， 我 们 并 不 是 直接 访 
间 数 据 库 。 相 反 ，R 提 供 了 连接 数据 库 管理 系统 的 辅助 功能 ， 然 后 DBMS 会 执行 用 SQL 查 询 语句 编写 的 用 户 请 求 。 数 据 库 操作 是 用 户 定义 的 ,但 
这 些 操 作 完 成 的 过 程 取决 于 DBMS。SQL 是 和 各 种 DBMS 进 行 交 互 的 工具 。 它 是 关系 型 数据 库 管理 的 核心 。 


“执行 SQL 查询 并 发 回 


"定义 数据 结构 pe 
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图 7-1 用 户 、R、SQL、DBMS 和 数据 库 的 相互 关系 
下 面 定义 一 些 迄 今 为 止 我 们 已 经 用 到 过 的 术语 ， 为 本 章 构 建 一 套 自始至终 的 共同 基础 。 


数据 ， 基 本 上 就 是 由 数字 、 逻 辑 值 、 文 本 或 其 他 格式 构成 的 信息 集合 。 有 时 候 ， 某 个 信息 集合 对 于 某 种 用 途 可 以 算是 数据 ， 而 对 于 另 一 种 
用 途 就 是 一 堆 没 用 的 数位 和 字 节 。 比 如 ， 我 们 有 一 组 参加 奥运 会 的 运动 员 名 单 。 如 果 我 们 只 关心 谁 参加 了 ， 那 么 只 要 数据 有 类 似 于 "Carlo 
Pedersoli 的 格式 融 够 了 。 但 是 ， 如 果 需 要 按 姓 氏 来 对 数据 排序 ， 那 么 类 似 于 "Pedersoli，Carlo "的 格式 束 更 为 合适 。 如 果 要 更 稳妥 一 些 ， 我 们 
甚至 可 以 考虑 把 名 字 分 解 为 姓氏 (“Carlo”) 和 名 字 (“Pedersoli”) 。 稳 妥 的 思想 在 数据 库 设 计 中 具有 关键 作用 ， 我 们 会 在 后 面 的 内 容 里 
再 讲解 它 。 

总 体 而 言 ， 数 据 库 就 是 一 个 数据 的 集合 。 在 大 多 数 数据 库 系 统 和 关系 型 数据 库 系 统 里 ， 数 据 是 相互 关联 的 。 例 如 ， 一 个 包含 了 很 多 人 体重 
言 息 的 数据 表 。 我 们 在 表 里 至 少 有 两 类 数据 : 体重 和 姓名 。 此 外 ， 该 表 不 仅 保 他 了 这 两 个 变量 ， 还 额外 提供 了 这 两 份 信息 相互 天 联 的 信息 。 最 
基本 的 规则 是 这 样 的 : 在 一 行 里 的 两 条 信息 是 相互 关联 的 。 我 们 已 经 习惯 了 处 理 以 这 种 方式 构建 的 表 。 在 天 系 型 数据 库 里 ， 这 些 数据 之 间 的 天 
系 会 复杂 得 多 ， 通 常 也 是 分 布 在 多 个 表 里 的 。 

数据 库 党 理 系统 (Database Management System, DBMS) 是 和 软件 绑 定 在 一 起 的 某 种 数据 库 慨 念 的 实现 结果 。 软 件 负 责 管 理 用 户 权 
限 和 数据 访问 、 数 据 和 元 信息 的 物理 存储 方式 或 SQL 语句 解释 和 执行 的 方法 等 。DBMS 数 量 众多 ， 开 源 的 和 商业 化 的 产品 都 有 ， 能 支持 所 有 类 
型 的 用 途 、 操 作 系 统 、 数 据 量 和 硬件 体系 结构 。 


关系 型 数据 库 (Relational Database Management System, RDBMS) 是 基于 关系 模型 的 特定 类 型 DBMS， 也 是 数据 库 管理 系统 的 最 常 
见 形式 。 关 系 型 数据 库 已 经 存在 一 段 时 间 了 。 它 的 概念 是 在 20 世 纪 70 年 代 由 Edgar F.Codd 提 出 的 ， 用 于 在 相互 关联 的 表 里 保存 数据 ， 而 数据 之 
间 的 关系 也 保存 在 表 里 (Codd 1970) 。 虽 然 天 系 型 数据 库 的 基本 概念 很 简单 ， 但 是 它 足 够 通用 和 灵活 ， 可 以 保存 所 有 不 同类 型 的 数据 结构 ， 
而 且 让 数据 库 的 具体 部 分 始终 是 易于 理解 的 。 流 行 的 关系 型 DBMS 有 Oracle、MySQL、Microsoft SQL Server, PostgreSQL, DB2, 
Microsoft Access、Sybase、SQLite、Teradata 以 及 File-Makerl1]。 在 本 书 中 专门 讨论 RDBMS， 并 会 不 加 区 分 地 使 用 DBMS 和 RDBMS 两 个 术 


les 


SQL 是 一 种 与 关系 型 数据 库 管理 系统 通信 的 语言 。 当 Codd 在 1970 年 提出 数据 库 的 关系 模型 时 ， 他 也 提出 使 用 一 种 语言 与 数据 库 系 统 进 行 


通信 ， 这 种 语言 应 该 是 通用 的 ， 并 只 在 元 层次 (meta level) | 起 作用 。 这 个 思路 能 够 准确 表达 DBMS 应 该 具备 的 功能 : 在 不 同 的 DBMS 里 ， 同 
样 的 语句 应 该 总 是 产生 相同 的 结果 。 但 从 计算 的 角度 ， 完 成 这 个 功能 的 具体 方法 是 完全 留 给 DBMS 来 实现 的 (Codd 1970) 。 这 样 一 种 语言 会 
是 用 户 友 好 的 ， 并 且 可 以 利用 一 个 通用 的 框架 来 支持 对 该 关系 模型 的 不 同 实现 方式 。 基 于 这 些 概念 性 的 思路 ，SQL 后 来 由 Donald 
D.Chamberlin 和 Raymond F.Boyce (1974) 制定 出 来 ， 虽 然 在 这 几 十 年 中 偶尔 会 有 一 些 修改 ， 但 是 时 至 今日 ， 它 仍然 作为 用 于 关系 型 数据 库 
通信 的 一 种 通用 语言 而 存在 。 


关于 查询 (query) 的 概念 ， 严 格 地 说 ， 它 是 发 送 给 DBMS 的 用 于 检索 数据 的 请 求 。 从 更 广泛 和 更 常用 的 意义 上 说 ， 它 可 以 是 发 送 给 DBMS 
的 任何 请 求 。 这 些 请 求 可 以 定义 或 修改 数据 结构 、 插 入 新 数据 或 从 数据 库 检索 数据 。 轩 


[1] 可 参见 http://db-engines.com/en/ranking/relational+dbms。 

[2] 关于 SQL 是 不 是 一 个 缩写 以 及 它 的 正确 发 音 是 什么 ,坊间 仍 有 和 争议。 好 吧 ， 作 者 在 此 公布 正确 答案 : 它 不 是 缩写 ; 发 音 就 是 S-Q-L。SQL 其 实 
是 SEQUEL 这 个 缩写 词 的 后 继 者 ， 因 为 SEQUEL 这 个 名 字 和 一 架 飞 机 重 名 ， 所 以 只 能 改 掉 (McJones et al.1997, p.22) 。SEQUEL 是 结构 化 英语 
查询 语言 (Structured English QUery Language， 参 见 McJones et al.1997, p.14) 的 首 字 母 缩写 。 至 于 SQL 的 发 音 也 是 有 正式 发 布 的 ， 就 是 S-Q- 
L (Gillespie 2012) 。 


[3] meta 字 根 的 含义 是 “更 高 层次 的 ”， 比 如 ，meta data 翻 译 为 元 数据 ， 意 思 是 能 定义 或 控制 其 他 数据 的 数据 ; meta programming 元 编程 ， 意 思 是 








能 够 编写 或 控制 其 他 程序 的 程序 。 同 理 ， 这 里 的 “元 层次 ”意思 是 抽象 的 数据 模型 层次 ， 而 不 是 具体 的 物理 数据 层次 。 译 者 注 
[4] 因此 ， “数据 库 查 询 ”这 个 术语 的 含义 并 不 局 限于 对 数据 库 进行 查询 ， 而 是 可 能 包含 各 种 增 、 删 、 改 、 查 的 操作 。 译 者 注 


7.2 天 系 型 数据 库 


7.2.1 在 表 中 保存 数据 


关系 型 数据 库 的 主要 概念 就 是 ， 任 何 类 型 的 信息 都 可 以 用 表 来 表示 。 我 们 已 经 知道 ， 表 是 储存 数据 和 关系 的 手段 ， 即 在 同一 行 里 的 每 一 段 
言 息 都 会 和 同一 个 实体 关联 。 为 了 实现 更 复杂 的 关系 ,例如 ， 某 个 人 称 了 两 次 体重 ,或 某 个 人 的 孩子 也 称 了 体重 ， 可 以 在 一 个 表 和 男 一 个 表 之 
间 进 行 数据 关联 。 


让 我 们 通过 一 个 例子 来 看 清楚 这 个 知识 点 。 假 如 我 们 已 经 采集 了 一 些 有 关 某 些 朋友 的 信息 ， 如 Peter、Paul 和 Mary。 我 们 采集 了 有 关 他 们 
生日 、 电 话 号 码 和 喜爱 的 食物 的 信息 ， 详 见 表 7-1 和 表 7-2。 我 们 在 把 这 些 数 据 放 进 一 个 表 的 时 候 遇 到 了 点 麻烦 ， 最 后 只 能 把 它们 分 到 两 个 表 
里 。 因 为 我 们 不 想 重复 信息 ， 所 以 我 们 并 没有 把 全 名 加 入 电话 号 码 表 ( 见 表 7-2) ， 而 是 在 一 个 名 为 nameid 的 列 里 用 具体 的 ID 指 代 相 应 的 人 
名 。 现 在 ， 我 们 如 何 找到 Peter 的 电话 号 码 ” 首 先 ， 我 们 在 生日 表 ( 见 表 7-1) 里 查找 Peter 的 ID， 因 为 我 们 知道 同一 行 里 的 数据 是 相关 的 ， 这 样 
找到 Peter 的 ID 是 1。 其 次 ,我 们 去 电话 号 码 表 里 找到 nameid 是 1 的 行 一 一 我 们 找到 的 是 第 1 行 和 第 3 行 。 最 后 ， 我 们 在 这 些 匹 配 的 行 里 找到 电话 
号 码 ， 即 001665443 和 001878345， 并 意识 到 Peter 有 2 个 电话 号 码 。 我 们 也 可 以 把 前 面 的 过 程 反 过 来 ， 从 生日 表 里 查找 对 应 某 个 电话 号 码 的 名 
F, 或 者 查询 要 和 一 个 水 果 沙 拉 或 意大利 面 的 爱好 者 聊天 应 该 打 哪 个 电话 。 


表 7-1 朋友 的 生日 和 喜欢 的 食物 


nameid © name | birthday favoritefood1 favoritefood2 favoritefood3 


l Peter Pascal 01/02/1991 


03/04/1993 





N 









(2 


chocolate fish fingers hamburger 


表 7-2 朋友 的 电话 号 码 


Mary Meyer 





telephoneid telephonenumber 


在 这 个 例子 里 天 系 被 称 为 : 1: m 或 一 对 多 ， 比 如 ， 一 个 人 可 以 关联 到 0 个 、1 个 或 多 个 电话 号 码 。 当 然 ， 也 有 1 : 1、n : 1 和 n : MAR (一 
对 一 、 多 对 一 和 多 对 多 ) ， 这 尝 天 系 的 工作 原理 都 是 一 样 的 ， 无 非 是 天 系 中 一 边 或 另 一 边 出 现 的 数字 不 同 而 已 。 


这 种 为 了 表达 数据 之 间 关 系 而 给 表 建 立 的 关联 是 关系 型 数据 库 模型 里 最 重要 的 概念 之 一 。 但 是 请 注意 ， 为 了 让 这 种 方式 有 效 ， 我 们 必须 在 
两 个 表 里 加 入 1D 码 。 这 些 所谓 的 “ 键 ”能 确保 我 们 知道 数据 属于 哪个 实体 ， 以 及 如 何 从 不 同 的 表 里 合并 信息 。 


加 入 键 会 让 数据 的 某 些 部 分 产生 见 余 ， 如 nameid 列 在 表 7-1 和 表 7-2 都 有 ， 但 它 同 时 也 减少 了 见 余 。 让 我 们 再 用 上 面 的 例子 来 看 清 这 个 知识 
点 。 再 看 一 眼 表 7-1。 有 3 列 保存 了 同样 类 型 的 数据 。 我 们 必须 把 数据 保存 在 某 个 地 方 ， 有 某 些 朋 友 给 出 了 不 止 一 种 爱 吃 的 食物 ， 我 们 对 这 种 情 
况 有 什么 办 法 ? 下 想 象 一 下 ， 如 果 我 们 拿 到 的 不 止 3 个 爱 吃 的 食物 ， 也 许 是 5 个 、7 个 甚至 10 个 ， 又 该 怎么 办 。 我 们 也 可 以 给 每 个 爱好 项 增加 另 
一 个 列 ， 但 如 果 某 个 人 只 有 一 种 爱 吃 的 ， 那 所 有 其 他 的 列 束 都 是 空 的 。 显 然 ， 这 里 需要 用 其 他 的 方法 来 适应 这 样 的 数据 ， 而 不 是 为 每 个 多 出 来 
的 爱好 去 逐个 增加 列 。 实 际 上 ， 这 样 的 方法 是 有 的 。 


我 们 可 以 把 生日 表 里 包含 的 数据 切 分 成 两 个 单独 的 表 ， 这 两 个 表 通 过 一 个 键 相 互 关 联 。 看 一 下 表 7-3 和 表 7-4 里 的 结果 。 现 在 我 们 不 用 担心 
时 个 人 给 出 了 多 少 爱 吃 的 食物 ， 因 为 总 是 可 以 在 必要 时 增加 另 一 行 ， 并 让 这 些 喜 好 始终 明确 关联 到 特定 的 人 。 


表 7-3 朋友 的 生日 一 一 修改 版 


nameid last name birthday 


Peter Pascal 01/02/1991 
2 Paul Panini 02/03/1992 


3 Mary Meyer 03/04/1993 


—" 
= 
一 
0 
ot 
- 
0) 
= 
D 


表 7-4 朋友 的 食物 偏好 


nameid foodname rank 
] spaghetti ] 
] hamburger 2 
2 fruit salad 


3 chocolate l 


N 


3 fish fingers 


3 hamburger 3 


上 一 一 


即使 这 些 数据 是 以 一 种 清晰 的 方式 存放 的 ， 我 们 的 食物 喜好 表 里 还 是 有 某 些 匈 余 。hamburger 在 一 个 表 里 出 现 了 两 次 ， 这 有 必要 吗 ? 在 我 
们 的 例子 里 差别 并 不 大 ， 但 如 果 换 个 稍微 复杂 点 的 例子 ， 比 如 ， 里 面 有 10 位 朋友 而 不 是 只 有 3 位 ， 其 中 80% 的 朋友 都 喜欢 hamburger， 这 个 表 
就 会 迅速 膨胀 。 如 果 我 们 想 增加 有 关 食 物 类 型 的 更 多 信息 怎么 办 ?我 们 会 把 它 保存 在 同一 个 表 里 ， 一 遍 又 一 遍地 重复 hamburger 这 个 信息 吗 ? 
不 ， 我 们 应 该 像 之 前 把 电话 号 码 放 到 单独 表 ( 见 表 7-2) 里 一 样 ， 进 行 类 似 的 处 理 。 在 新 的 食物 喜好 表 ( 见 表 7-5) 里 ， 所 有 关于 食物 喜好 本 身 
的 信息 都 是 原封 不 动 存 放 的 ， 因 为 这 个 表 是 有 关 喜 好 的 表 。 此 外 ， 还 需要 保存 和 生日 表 ( 见 表 7-3) 关联 的 键 (nameid) 以 及 和 新 的 食物 表 

( 见 表 7-6) 关联 的 键 (foodid) 。 


表 7-5 朋友 的 食物 偏好 





修改 版 


N 
N 


在 重 构 数 据 之 后 ， 我 们 现在 有 了 一 个 像样 的 数据 库 。 参 考 图 7-2， 看 看 里 面 的 数据 是 如 何 结构 化 的 。 在 这 个 模式 下 ， 每 个 表 用 一 个 方 框 表 
示 。 正 如 我 们 所 见 ， 一 共有 4 个 表 。 分 别称 为 生日 表 、 电 话 表 、 食 物 排 名 表 和 食物 类 型 表 (birthdays、telephone、foodranking、 
foodtypes) 。 方 框 上 半 部 分 是 表 名 ， 列 名 在 下 半 部 分 列 出 。 双 向 箭头 通过 指向 作为 键 的 列 ( 粗 体 和 和 斜体 的 列 ) 来 表示 哪些 表 是 相关 的 。 


telephone | birthd ays | foodra nking | foodtypes 


telephoneid | nameid 7 rankid foodid 

nameid firstname foodid foodname 

telephone lastname nameid healthy 
birthday rank kcalp100g 





图 7-2 ”数据 库 模式 


之 所 以 会 有 某 些 键 设 为 粗 体 而 某 些 设 为 斜体 ， 是 因为 键 有 两 种 类 型 : 主键 和 外 键 。 主 键 是 在 一 个 表 里 明 确 标识 每 一 行 的 键 ， 在 生日 表 ( 表 
7-3) 里 的 nameid 融 是 一 个 例子 ， 每 个 人 都 会 准确 地 关联 到 一 个 唯一 的 nameid。 但 nameid 在 我 们 的 电话 号 码 表 ( 表 7-2) 里 束 不 是 主键 ， 
为 一 个 人 可 能 会 有 多 于 一 个 电话 号 码 ， 这 样 这 个 ID 融 不 是 唯一 的 。 因 此 ， 虽 然 nameid 在 电话 号 码 表 里 仍然 是 一 个 键 ， 但 是 它 在 这 里 被 称 为 外 
键 。 外 键 束 是 在 男 一 个 表 里 明确 标识 每 一 行 的 键 。 在 电话 号 码 表 里 ， 不 可 能 会 有 某 个 hameid 能 够 在 生日 表 里 匹 配 出 多 于 一 个 的 nameid。 


注意 ， 键 在 每 行 里 可 以 是 单个 值 ， 也 可 以 由 多 个 值 合并 组 成 。id 也 可 以 是 数字 、 字 符 串 、 其 他 格式 或 它们 的 组 合 。 只 要 组 合 值 满足 主键 或 
外 键 的 要 求 ， 一 个 键 可 以 是 跨 多 个 列 合并 起 来 的 。 在 我 们 前 面 的 例子 里 ， 主 键 仪 限 于 单个 列 ， 并 且 总 是 数字 格式 ， 但 它们 也 可 以 有 不 同 的 形 

让 我 们 考虑 一 个 替代 主键 的 例子 来 看 清楚 这 个 知识 点 。 在 我 们 的 食物 偏爱 表 ( 表 7-5) 里 ，nameid 和 foodid 都 不 足以 作为 主键 ， 因 为 根据 
各 人 表达 的 喜好 ， 一 个 人 可 能 会 在 访 表 中 出 现 多 次 ， 而 同一 个 食物 也 可 能 有 多 个 人 喜爱 。 不 过 ， 由 于 不 会 有 一 个 人 对 同一 个 食物 表达 两 次 喜 
爱 ， 因 此 ， 在 食物 偏爱 表 里 ， 名 字 标 识 符 和 食物 标识 符 的 组 合作 为 主键 束 是 合法 的 。 


7.2.2 ASEH 


前 面部 分 一 步 一 步 地 分 解 了 我 们 的 数据 。 之 所 以 这 么 做 ， 是 因为 这 样 从 长 期 来 说 可 以 节约 不 必要 的 工作 ， 并 避免 见 余 。 规 学 化 融 是 去 除 郊 


余 和 潜在 不 一 致 的 步 又。 在 下 面 的 内 容 里 ， 我 们 会 了 解 这 个 过 程 ， 它 对 于 应 付 复杂 数据 是 大 有 帮助 的 。 如 果 你 不 打算 用 数据 库 来 保存 数据 ， 例 
如 ， 你 只 需要 保存 本 来 束 很 适合 放 在 一 个 表 里 的 大 量 数据 ， 或 者 你 只 需要 用 到 它 的 用 户 管 理 功能 ， 那 么 可 以 直接 跳 过 这 一 节 ， 或 以 后 需要 的 时 
候 再 返回 来 学 习 。 


我 们 逐步 学 习 规 范 化 的 正式 规则 ， 确 保 能 了 解数 据 库 常 见 表 现形 式 的 原理 ， 以 及 我 们 自己 来 处 理 的 时 候 该 怎么 做 。 虽然 有 无 数 方 法 可 以 用 
来 分 解 保存 在 表 中 的 数据 ， 它 们 称 为 范式 ， 但 是 我 们 只 会 介绍 前 三 种 ， 因 为 它们 是 最 重要 而 且 最 常用 的 。 


1. 第 一 范式 
1) 一 个 列 必 须 对 应 且 只 对 应 一 个 事物 ， 而 且 任 何 列 和 行 的 交叉 点 必须 只 能 包含 一 项 数据 (数据 需求 的 原子 性 ) 。 


这 条 规则 要 求 不 同类 型 的 信息 不 能 混在 一 列 中 。 有 人 可 能 要 指出 ， 我 们 在 第 一 个 生日 表 ( 表 7-1) 里 把 名 和 姓 一 起 保存 在 name 列 中 ， 融 违 
反 了 这 条 规则 。 我 们 在 更 新 的 生日 表 ( 表 7-3) 里 纠正 了 这 个 错误 ， 里 面 的 名 和 姓 被 分 开放 到 2 列 里 了 。 


此 外 ， 这 条 规则 还 要 求 同 样 的 数据 只 能 保存 在 一 列 中 。 这 个 要 求 在 第 1 版 的 生日 表 里 也 被 违反 了 ， 因 为 我 们 用 了 3 个 列 来 保存 某 个 人 最 喜欢 
的 食物 。 通 过 把 这 些 信息 导出 到 一 个 喜好 食物 表 ( 表 7-4 和 表 7-5) 以 及 一 个 食物 类 型 表 ( 表 7-6) ， 这 个 问题 也 得 到 了 解决 。 这 样 ， 某 个 人 最 喜 
欢 的 食物 就 保存 在 一 列 中 了 。 此 外 ， 在 一 个 行 和 列 的 交叉 点 保存 超过 一 条 同类 信息 也 是 不 允许 的 。 例 如 ， 在 一 个 表 的 一 个 单元 里 保存 2 个 电话 号 
码 也 是 不 允许 的 。 看 一 下 表 7-7~ 表 7-9， 里 面 就 有 3 个 违反 第 一 范式 的 例子 。 


表 7-7 第 一 范式 错误 1 





zip code and city 


789222 Big Blossom 
43211 Little Hamstaedt 


123456 Bloomington 





这 个 表 违反 了 第 一 范式 的 第 一 条 规则 ， 因 为 两 个 不 同类 型 的 信息 被 存放 在 了 同一 列 。 


表 7-8 第 一 范式 错误 2 





telephone 
0897729344, 0666556322 


123123454 
675345334 





这 个 表 违 反 了 第 一 范式 的 第 一 条 规则 ， 因 为 在 第 一 行 里 存放 了 2 个 电话 号 码 。 


表 7-9 第 一 范式 错误 3 





telephone’ telephone2 
0897729344 0666556322 


123123454 
675345334 





这 个 表 违 反 了 第 一 范式 的 第 一 条 规则 ， 因 为 它 用 了 2 列 来 存放 相同 类 型 的 信息 。 

2) 每 个 表 必 须 有 一 个 主键 。 

这 条 规则 很 容易 理解 ， 因 为 在 前 面 已 有 较 大 篇 幅 对 键 进行 了 讲解 。 这 个 规则 用 来 确保 数据 在 表 之 间 可 以 关联 ， 并 且 同 一 行 里 的 数据 是 关联 
到 同一 个 实体 的 。 
2. 第 二 范式 

1) 第 一 沁 式 的 所 有 要 求 都 必须 满足 。 

2) 一 个 表 的 每 列 都 必须 是 和 整个 主键 相关 联 的 。 


我 们 已 经 知道 ， 主 键 可 以 是 由 多 个 列 的 值 组 合 起 来 的 。 这 条 规则 要 求 一 个 表 中 的 所 有 数据 只 描述 一 个 主题 : 只 是 人 、 只 是 电话 号 码 、 只 是 
食物 偏好 或 只 是 事务 类 型 。 你 可 以 把 这 个 规则 想象 成 按照 不 同 主题 把 数据 划分 到 各 个 表 里 。 


来 看 看 表 7-10 里 违反 这 条 规则 的 例子 。 该 表 的 主键 是 nameid 和 foodid 的 组 合 。 问 题 在 于 ，firstname 和 birthday 只 和 nameid 相 关 ， 而 
favoritefood 只 和 foodid 相 关 。 唯 一 依赖 整个 主键 (也 就 是 nameid 和 foodid 的 组 合 ) 的 列 是 rank， 它 保存 了 某 个 食物 在 某 个 人 的 食物 喜好 序 
列 里 的 排名 。 


表 7-10 第 二 范式 错误 


ee 


这 个 表 不 符合 第 二 范式 ， 因 为 除了 tank 的 所 有 列 只 和 组 合 的 主键 (nameid 和 foodid) 的 一 部 分 相关 ， 而 不 是 关联 到 完整 的 键 。 





对 这 种 违反 第 二 范式 的 情况 ， 一 种 解决 办 法 是 把 该 表 拆 分 成 几 个 表 。 第 一 个 表 玉 集 个 人 信息 ， 第 二 个 表 保 存 食物 信息 ， 第 三 个 表 保 存 食物 
喜好 情况 。 你 可 以 看 看 表 7-3、 表 7-5 和 表 7-6， 这 些 例子 都 是 符合 第 二 范式 的 表 。 


3. 第 三 范式 
1) 第 二 范式 的 所 有 要 求 都 必须 满足 。 
2) 表 的 每 一 列 必须 只 能 直接 和 主键 关联 。 
第 三 沁 式 实际 上 是 第 二 沱 式 的 一 个 更 严格 的 版 本 。 简 单 地 说， 它 排除 了 在 表 里 保存 的 无 天 数据 。 


看 看 表 7-11。 这 个 表 只 包含 了 三 条 记录 ， 所 以 我 们 可 以 简单 地 用 nameid 作 为 主键 。 因 为 主键 只 由 一 列 组 成 ， 表 里 的 每 条 信息 都 是 联系 到 整 
个 主键 的 。 但 是 这 个 表 看 起 来 还 是 怪 怪 的 ， 因 为 它 包 含 了 两 类 信息 : 关联 到 个 人 的 信息 和 关联 到 食物 的 信息 。 由 于 主键 是 基于 人 物 的 ， 所 有 关 
于 他 们 的 信息 都 会 直接 和 主键 相关 。 但 那些 和 食物 相关 的 信息 看 起 来 融 不 一 样 了 。 食 物 相 天 信息 只 是 因为 人 物 具 有 食物 喜好 才 间 接 天 联 到 主 
键 。 因 此 ， 把 有 关 食 物 的 信息 包含 在 这 个 表 里 违 反 了 第 三 学 式 。 同 理 ， 这 里 的 信息 必须 保存 在 分 开 的 表 里 ， 如 表 7-3、 表 7-5 和 表 7-6 所 示 。 


表 7-11 第 三 范式 错误 


02/03/1992 fruit salad 0.043 


这 个 表 不 符合 第 三 范式 ， 因 为 favoritefood、healthy 和 kcalp100g 都 不 和 个 人 直接 相关 ， 而 主键 (nameid) 正 是 基于 个 人 的 。 


N 





icit, MAJSLARASÉIL, (ATEN RX=S SAT. B PEER BA SRE E, BHS eas 
息 片 段 都 只 在 数据 库 里 保存 一 份 。 如 果 同 一 份 信息 保存 了 两 份 ， 对 它们 进行 修改 束 要 涉及 多 个 地 方 ， 一 旦 有 遗漏 就 会 产生 相互 冲突 。 


不 过 ， 并 没有 什么 技术 手段 会 阻挡 我 们 把 元 余 或 不 一 致 数据 结构 市 到 数据 库 里 。 这 样 做 是 否 有 利于 达成 我 们 的 目标 ， 很 大 程度 上 取决 于 下 
面 这 些 问题 : 数据 库 的 用 途 是 什么 ? 我 们 在 数据 库 里 要 表示 什么 ? 数据 库 里 的 元 素 是 如 何 相 互 关 联 的 ? 将 来 是 否 会 增加 信息 ? 数据 库 在 未 来 是 
否 会 另 有 他 用 ?完全 规范 化 的 数据 库 会 需要 多 少 工作 量 ” 数 据 的 复杂 度 越 高 ， 一 个 数据 库 可 能 需要 实现 的 用 途 融 越 多 ， 未 来 增加 信息 的 可 能 性 
就 越 大 ， 规 划 和 严格 设计 数据 库 结构 所 需 的 工作 量 束 越 大 。 筷 体 而 言 ， 当 你 试图 从 一 个 未 知 数据 库 里 提取 数据 时 ， 你 必须 总 是 检查 数据 库 的 结 
构 ， 以 确保 你 能 获得 正确 的 信息 。 


7.2.3 ”天 系 型 数据 库 和 DBMS 的 高 级 特性 


知道 了 在 数据 库 中 如 何 把 数据 保存 到 表 里 、 如 何 分 解数 据 ， 以 及 关系 的 工作 原理 ， 你 对 于 数据 库 性 质 的 基本 理解 就 足够 了 。 但 DBMS 通 常 
实现 了 更 多 的 特性 ， 如 类 型 定义 、 数 据 限 定 、 虚 拟 表 或 视图 、 过 程 、 触 友 器 、 事 件 等 ， 这 些 都 让 DBMS 成 为 强 有 力 的 工具 ， 但 这 些 特性 已 经 远 
远 超出 了 本 节 的 简短 介绍 所 能 履 盖 的 泡 围 。 尽 管 如 此 ， 我 们 还 是 会 简单 讲述 这 些 概念 ， 提 供 一 点 天 于 在 用 DBM 9 开展 工作 时 会 遇 到 的 各 种 可 能 
性 的 印象 。 


在 构建 一 个 数据 库 时 ， 我 们 通常 必须 关心 的 一 个 方面 是 指定 每 个 列 的 数据 类 型 。 数 据 类 型 定义 会 告诉 DBMS 如 何 处 理 和 保存 数据 ; 它 会 影 
响 所 需 的 磁盘 空间 ， 也 会 影响 效率 。 每 种 DBMS 里 都 有 几 种 宽泛 的 数据 类 型 : 布尔 数据 ( 即 true 和 false 值 ) 、 数 字数 据 (整数 和 浮 点 数 ) 、 字 
竺 或 文本 数据 、 表 示 日 期 、 时 间 和 时 间 区 间 的 数据 ， 还 有 用 于 文件 的 数据 类 型 (所谓 的 BLOB (Binary Large Objects， 二 进 制 大 对 象 ) ) 。 具 
体 有 哪些 类 型 可 用 以 及 它们 的 实现 方式 ， 这 些 都 依赖 特定 的 DBMS， 所 以 我 们 不 会 在 这 里 讨论 细节 。 每 个 DBMS 的 手册 部 分 都 会 列举 和 描述 它 
所 支持 的 数据 类 型 ， 它 们 是 如 何 实现 的 ， 以 及 与 之 相关 的 其 他 特性 。 要 获得 一 个 初步 印象 ， 请 再 看 一 下 表 7-11。 数 据 类 型 可 以 逐 列 说 明 为 : 整 
数 、 字 符 、 日 期 、 字 符 、 布 尔 以 及 浮 点 数 。 


除了 给 每 一 列 指定 数据 类 型 ， 某 些 DBM 9 甚至 实现 了 限定 数据 的 可 能 性 。 限 定数 据 可 以 确保 用 户 能 定义 在 哪些 情况 下 (哪些 值 和 值 域 泄 
Fl) 数据 可 以 接受 ， 在 哪些 情况 下 DBM 3 应 该 拒绝 保存 数据 。 总 体 而 言 ， 有 两 种 方法 可 以 限定 数据 的 合法 性 : (1) 把 某 些 列 指定 为 主键 或 外 
E, (2) 直接 明确 指定 哪些 值 或 值 域 范围 是 合法 的 ， 哪 些 是 非法 的 。 把 某 个 列 设 为 主键 ,会 导致 重复 的 值 被 排除 掉 ， 因 为 主键 必须 能 用 来 明确 
地 识别 每 一 行 。 把 某 个 列 定义 为 外 键 ， 则 会 把 它 对 应 主键 里 还 不 存在 的 值 被 排除 。 而 显 式 的 数据 约束 是 用 尸 自 定义 的 ， 可 以 是 类 似 于 禁止 负数 
值 这 样 的 简单 条 件 ， 也 可 能 是 涉及 几 个 子 句 并 引用 了 其 他 表 的 复杂 条 件 。 不 管用 了 哪 种 限定 条 件 ，DBM3 的 一 般 作 用 融 是 排除 那些 不 符合 限定 


条 件 的 值 。 


DBMs 的 设计 目标 是 对 数据 进行 连贯 一 致 的 处 理 。 这 融 要 求 对 数据 库 的 各 种 操作 不 会 导致 它 被 极 坏 ， 例 如 ， 有 一 个 非法 的 修改 请 求 或 者 数 
据 导 入 操作 突然 中 断 〈 如 因为 系统 朋 溃 ) 的 情况 。 对 这 个 原则 的 贯彻 ， 是 通过 强制 任何 操作 “要 么 全 部 执行 ， 要 么 全 部 不 执行 ”来 实现 的 。 此 
外 ，DBMS 通 常 还 提供 了 定义 事务 区 块 的 方式 。 访 特性 适用 于 这 样 的 情况 : 我 们 有 一 个 多 步骤 的 操作 ， 要 求 所 有 步骤 要 么 全 部 生效 ， 要 么 全 部 
不 生效 ， 也 融 是 况 ， 我 们 不 硕 望 操作 过 程 由 于 有 某 个 语句 出 钳 而 半途 中 断 ， 从 而 留 下 只 处 理 了 一 部 分 的 数据 。 


几乎 所 有 DMBs 都 提供 了 安全 访问 数据 库 的 方法 。 可 能 最 简单 的 办 法 融 是 要 求 输入 密码 才能 获取 整个 数据 库 的 访问 权限 ， 但 是 更 精巧 的 杠 
架 通 常会 支持 多 个 用 尸 有 独立 的 密码 。 此 外 ， 每 个 用 尸 账号 也 可 以 融 有 不 同 的 用 尸 权 限 。 某 个 用 户 可 能 只 能 读 取 单独 的 某 个 表 ， 而 其 他 用 户 则 
可 以 读 取 所 有 表 ， 甚 至 可 以 增加 新 数据 。 甚 至 还 可 以 有 其 他 一 些 用 户 能 够 创建 新 表 并 给 其 他 用 户 授 权 。 


DBMS 能 够 轻松 处 理 多 个 用 户 对 同一 个 数据 库 同 时 进行 访问 的 问题 。 也 就 是 说 ，DBMS 在 响应 一 个 查询 的 时 候 总 是 会 给 出 数据 库 的 当前 状 
人 态 ， 包 括 其 他 用 户 做 出 的 修改 ， 但 仅 限 于 那些 已 经 完全 执行 的 。DBMS 和 解决 并 友 访 问 问 题 的 方法 各 有 不 同 。 


数据 的 规范 化 和 复杂 数据 结构 ， 使 得 采集 特定 用 途 所 需 数据 的 过 程 更 为 繁杂 ， 所 以 大 部 分 DBMS 都 具有 定义 被 称 为 视图 的 虚拟 表 的 能 力 。 
比如 ， 我 们 需要 频繁 地 从 不 同 数据 表 里 获取 和 组 合 数据 。 我 们 可 以 在 每 次 需要 特定 数据 组 合 的 时 候 去 定义 一 个 查询 。 这 种 操作 的 缺点 是 会 消耗 
额外 的 磁盘 空间 。 此 外 ， 我 们 每 次 都 必须 重新 创建 这 个 表 ， 来 确保 它 反 映 了 最 新 的 数据 ， 这 样 就 等 于 我 们 要 在 每 次 需要 特定 数据 组 合 时 重新 定 
义 这 个 查询 。 

男 一 个 更 优雅 的 解决 办 法 ， 是 把 这 个 向 我 们 提供 所 需 数据 的 查询 保存 为 一 个 虚拟 表 。 说 这 个 表 是 虚拟 的 ， 因 为 在 表 里 保存 的 只 是 提供 查询 
的 数据 ， 而 不 是 数据 本 身 。 这 种 虚拟 表 的 表现 就 和 数据 已 经 保存 在 表 里 一 样 ， 但 省 下 了 很 多 重 写 和 重 查 的 潜在 操作 。 相 比 执行 一 次 查询 并 把 结 
果 保 存在 数据 库 里 的 情况 ， 虚 拟 表 里 的 数据 永远 都 是 最 新 的 。 

除了 简单 的 数据 存储 能 力 ， 所 有 DBMS 还 提供 了 用 于 数据 操作 和 汇总 的 浮 数 。 这 些 函数 能 给 我 们 提供 当前 日 期 、 数 字 绝 对 值 、 字 符 串 子 


串 、 一 组 值 的 均值 等 。 注 意 ， 虽 然 R 函 数 能 够 返回 各 种 数据 格式 ， 但 数据 库 函 数 只 限于 返回 标量 。[] 提 供 哪些 函数 以 及 函数 的 命名 随 着 DBMS 的 
不 同 而 不 同 。 此 外 ， 大 部 分 DBMS 也 支持 用 户 自 定义 函数 ， 不 过 ， 它 们 定义 函数 的 语法 也 各 不 相同 。 


加 EA 


另 一 个 和 具体 DBM 相关 的 特性 是 过 程 和 触 和 有 器。 过 程 和 触 友 器 能 帮助 扩展 SQL 的 功能 。 比 如 ， 某 个 数据 库 里 面 有 很 多 表 ， 加 入 一 条 数据 
会 涉及 对 多 个 表 的 修改 。 过 程 是 保存 在 数据 库 里 的 查询 序列 ， 可 以 随时 按 需 调用 ， 这 样 束 让 这 些 重 复 性 的 任务 变 得 简单 。 普 通过 程 是 在 用 户 请 
求 时 执行 的 ， 触 友 器 则 是 在 特定 事件 (例如 ， 对 某 个 表 的 修改 ) 发 生 时 自动 执行 的 过 程 。 





[1 标量 是 只 有 大 小 没有 方向 的 量 。 与 之 相对 的 矢量 或 向 量 ， 则 是 婚 有 大 小 又 有 方向 的 。 译 者 注 


7.3 SQL: 一 种 与 数据 库 通信 的 语言 
7.3.1 SQL 概述 


既然 我 们 已 经 了 解 了 数据 库 和 DBMS 的 工作 原理 及 其 提供 的 特性 ， 现 在 就 可 以 把 注意 力 转向 SQL 这 种 与 DBBMS 通 信 的 语言 。SQL 是 一 种 多 用 
途 语言 ， 包 含 的 词汇 和 语法 可 以 用 于 如 下 各 种 任务 : 

- 数据 控制 语言 (Data Control Language, DCL) 

SQL 的 DCL 部 分 能 帮助 我 们 定义 谁 能 在 数据 库 的 什么 地 方 做 什么 事 ， 以 便 进 行 精细 的 用 户 权限 定义 。 

- 数据 定义 语言 (Data Definition Language, DDL) 


DDL 是 SQL 里 用 于 定义 数据 的 结构 及 其 关系 的 部 分 。 也 就 是 说 ， 这 部 分 词汇 让 我 们 能 创建 表 和 列 ， 定 义 数据 类 型 、 主 键 和 外 键 或 设置 限定 


条 件 。 
- 数据 操作 语言 (Data Manipulation Language, DML) 


SQL 的 DML 部 分 负责 把 数据 实际 填写 到 数据 库 或 从 中 提取 信息 。 


: 事务 控制 语言 (Transaction Control Language, TCL) 

SQL 的 最 后 一 部 分 是 TCL， 它 让 我 们 能 提交 或 回 滚 之 前 的 查询 操作 。 这 有 点 儿 类 似 于 普通 桌面 程序 里 的 保存 和 撤销 按钮 。 

SQL 的 语法 和 词汇 是 比较 简单 的 。 在 进入 SQL 不 同 语言 分 支 的 具体 词汇 和 语法 之 前 ， 首 先 让 我 们 来 看 看 它 的 通用 语法 。 

SQL 语句 通常 以 一 个 描述 执行 哪个 动作 的 命令 开始 ， 如 CREATE、SELECT、UPDATE 或 INSERT INTO， 后 面 跟着 作为 它 执行 对 象 的 单元 ， 


如 FROM table1， 然 后 是 一 个 或 多 个 条 件 ， 如 WHERE column1=1。 下 面 列 出 了 4 个 SQL 语句 的 例子 : 


CREATE DATABASE databasel 


. 
1 


SELECT columnl FROM tablel WHERE column2 
UPDATE tablel SET columnl = 1 WHERE column2 > 3 


wo N = 


1 


= 


INSERT INTO tablel (columnl1, column2) 
VALUES “"Poell’. Ee "Fo", "reZz2") 


1 





虽然 用 大 写字 母 编 写 所 有 SQL 语 句 是 惯例 ， 但 实际 上 SQL 并 不 区 分 它 的 关键 字 字 母 的 大 小 写 。 用 大 写 或 小 写字 母 都 不 会 改变 对 语句 的 解释 。 
但 是 请 注意 ， 根 据 DBMS 的 不 同 ，DBMS 可 能 会 对 表 和 列 命 名 的 字母 区 分 大 小 写 。 基 于 可 读 性 的 目的 ， 我 们 会 坚持 使 用 大 写 关 键 字 和 小 写 的 表 
和 列 命 名 。 


每 个 SQL 语 句 都 以 分 号 结尾 ， 这 样 ，SQL 语 句 就 可 以 扩展 到 多 行 。 


CREATE TABLE table ( 

columnil INTEGER NOT NULL AUTO INCREMENT , 
column2 VARCHAR(100) NOT NULL 
PRIMARY KEY (column1) 

) ; 


1 


> ùW N = 
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注释 要 么 以 -- 开 头 ， 要 么 必须 放任 /* 和 里面。 


-- One line comment. 
/* 


Comment spanning 


e Ww N 一 


several lines 


E i 


tA 





在 本 节 的 剩余 部 分 ， 我 们 会 使 用 前 面 章 节 创 建 的 数据 库 中 的 birthdays、foodranking 和 foodtypes 表 ( 表 7-3、 表 7-5 和 表 7-6) 。 对 于 广泛 
使 用 的 DBMS 而 言 ， 由 于 SQL 都 是 通用 的 标准 ， 这 些 例子 应 该 在 大 部 分 支持 SQL 的 DBMS 里 都 是 有 效 的 。 不 过 ， 也 可 能 会 存在 细微 的 差异 ， 例 
如 ，SQLite 束 不 支持 用 户 管 理 。 


要 访问 数据 库 ， 你 可 以 用 R 作 为 客户 端 。 我 们 会 在 7.3.2 节 找到 其 适用 方法 的 描述 ， 或 安装 并 使 用 另 一 个 客户 端 软 件 。 在 你 能 访问 数据 库 之 
前 ， 你 必须 创建 你 自己 的 服务 器 ， 除 非 使 用 的 是 SQLite，R 的 RSQLite 组 件 对 它 可 以 直接 上 手 使 用 。 我 们 推荐 使 用 MySQL 社 区 版 服务 器 ， 配 合 
MySQL Workbench CE 作为 起 始 环境 。MySQL server 和 和 MySQL Workbench 都 易于 安装 ， 易 于 使 用 ， 并 且 可 以 免费 下 载 。 此 外 ，MySQL 


ODBC 驱 动 是 可 靠 的 ， 可 用 于 很 大 范围 的 平台 ， 而 且 利 用 RODBC 组 件 可 以 很 容易 从 R 里 连接 到 服务 器 。["] 
7.3.2 ”数据 控制 语言 一 一 DCL 


要 对 数据 库 进 行 访问 和 授权 的 控制 ， 我 们 首先 要 让 DBMS 创 建 一 个 叫 db1 的 数据 库 : 


l > CREATE DATABASE dbl ; 


下 一 步 ， 创 建 和 删除 几 个 以 密码 来 确认 身份 的 用 户 : 


> CREATE USER 'tester' IDENTIFIED BY '123456' ; 
> CREATE USER 'tester2' IDENTIFIED BY '123456' ; 


> CREATE USER 'tester3' IDENTIFIED BY '123456' ; 
> DROP USER 'tester3' ; 


> ù N = 





现在 ， 我 们 可 以 使 用 两 个 强 有 力 的 SQL 命令 来 定义 允许 用 户 进行 的 操作 。GRANT 用 来 授予 权限 ， 而 REVOKE 用 来 解除 授权 。 下 面 是 一 组 给 
用 户 tester 授 予 所 有 权限 、 对 特定 数据 库 的 所 有 权限 以 及 某 个 数据 库 中 特定 表 的 所 有 权限 的 完整 SQL 语句 : 


> GRANT ALL ON *.* TO 'tester2' ; 
> GRANT ALL ON dbl.* TO 'tester2' ; 


Ww N = 


> GRANT ALL ON dbl.tablel TO 'tester2' ; 





我 们 也 可 以 只 授予 特定 的 权限 ， 例 如 ， 选 择 和 插入 信息 的 权限 : 


l > GRANT SELECT, INSERT ON *.* TO 'tester2' ; 


我 们 也 可 以 给 另 一 些 用 户 增 加 授权 的 权限 : 


| > GRANT SELECT, INSERT ON *.* TO 'tester2' WITH GRANT OPTION ; 


要 给 测试 用 户 移 除 所 有 权限 ， 可 以 使 用 REVOKE 语 句 或 完全 删除 该 用 户 。 


| > REVOKE ALL ON *.* FROM 七 eSter2 ; 
2 > DROP USER 'tester2' ; 





73.3 ”数据 定义 语言 一 DDL 


在 创建 数据 库 和 用 户 并 设置 用 户 权 限 之 后 ， 我 们 可 以 转 到 定义 数据 结构 的 语句 。 数 据 定义 的 命令 有 定义 表 的 CREATE TABLE， 修 改 已 有 表 
特性 的 ALTER TABLE， 以 及 从 数据 库 删 除 表 的 DROP TABLE。 下 面 先 定义 出 表 7-3， 即 修正 版 的 生日 表 。 


> CREATE TABLE birthdays ( 
> nameid INTEGER NOT NULL AUTO INCREMENT , 
> firstname VARCHAR(100) NOT NULL , 


Ww N = 





lastname VARCHAR (100) NOT NULL , 
birthday DATE , 


PRIMARY KEY (nameid) 


y Å Auv 上 


1 





RIZIKE. S83 —{TIBEFACREATE TABLE 声 明 我 们 要 定义 一 个 新 表 ， 并 指定 这 个 新 表 的 表 名 为 “birthdays”。 各 列 的 细节 在 随 
后 的 小 括号 里 。 每 个 列 的 定义 用 一 个 逗号 分 开 ， 总 是 以 列 名 开头 。 在 列 名 之 后 ， 我 们 会 捐 定 数据 类 型 ， 并 会 加 入 更 多 选项 。nameid 和 birthday 
的 数据 类 型 : INTEGER 和 DATE， 其 含义 都 是 不 言 目 明 的 ， 而 两 个 名 字 变 量 则 被 定义 为 最 长 为 100 个 的 字符 串 : VARCHAR (100) 。 


利用 NOT NULL 和 AUTO_INCREMENT 两 个 选项 ， 我 们 定义 了 一 些 基础 的 限定 条 件 。NOT NULL 指 定 这 个 列 不 能 留 空 : 我 们 要 求 在 生日 表 
里 的 每 个 人 都 必须 有 个 名 字 id、 一 个 名 字 和 一 个 姓 。 如 果 我 们 尝试 向 表 里 加 入 一 个 缺少 所 有 这 些 信 息 项 的 记录 ，DBMS 会 拒绝 把 它 存 入 
birthdays 表 里 。 针 对 nameid 列 的 AUTO_INCREMENT 参 数 给 该 列 添加 了 一 个 选项 ， 当 插入 数据 时 ， 如 果 没 有 手工 指定 一 个 名 字 id，DBMS 就 
会 通过 分 派 一 个 唯一 的 数字 来 处 理 这 个 问题 。 在 括号 封闭 和 分 号 结束 语 名 前， 语句 的 最 后 一 行 给 该 表 增 加 了 一 个 额外 的 限定 条 件 。 通 过 
PRIMARY KEY (nameid) 语句 ， 我 们 指定 nameid 作 为 主键 。DBMS 会 阻止 向 该 列 插入 重复 的 值 。 


我 们 向 数据 库 里 再 增加 2 个 表 ， 给 例子 增加 点 复杂 性 ， 并 展示 一 些 更 深 的 概念 。 我 们 定义 表 7-5 和 表 7-6 的 结构 ， 在 其 中 记录 食物 偏好 和 食物 


CREATE TABLE foodtypes ( 
foodid INT NOT NULL AUTO INCREMENT, 
foodname VARCHAR(100) NOT NULL, 
healthy INT, 
kcalp100g float, 
PRIMARY KEY (foodid) 


CREATE TABLE foodranking ( 

rankid INT NOT NULL AUTO INCREMENT , 

foodid INT , 

nameid INT , 

rank INT NULL , 

PRIMARY KEY (rankid) , 

FOREIGN KEY (foodid) REFERENCES foodtypes (foodid) ON UPDATE CASCADE, 
FOREIGN KEY (nameid) REFERENCES birthdays (nameid) ON UPDATE CASCADE ) 


VV Vv Vv VV VV 
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foodtypes 表 的 创建 和 birthdays 表 相当 类 似 。 更 有 意思 的 是 食物 偏好 表 foodranking 的 创建 过 程 ， 因 为 它 天 联 到 人 物 相关 数据 以 及 食物 相 
天 信息 ， 即 分 别 从 birthdays 和 foodtypes 表 里 提取 。 我 们 来 看 一 下 以 FOREIGN KEY 开 头 的 两 行 语句 。 首 先 ， 我 们 选 定 作 为 外 键 的 列 ， 然 后 定义 
该 列 引用 的 是 哪个 主键 ， 后 面 是 额外 的 选项 。 通 过 指定 ON UPDATE CASCADE， 我 们 选择 当主 键 被 修改 的 时 候 让 它 的 变化 串 接 到 外 键 列 ， 使 
之 也 随 之 改变 。 


如 果 之 后 还 要 修改 表 的 定义 ， 可 以 利用 ALTER TABLE 命 令 。 下 面 是 增加 一 列 、 修 改 某 列 的 数据 类 型 和 删除 一 列 的 几 个 例子 : 
> ALTER TABLE foodtypes ADD COLUMN dummy INT ; 


> ALTER TABLE foodtypes MODIFY COLUMN dummy FLOAT ; 
> ALTER TABLE foodtypes DROP COLUMN dummy ; 


Ww N = 





要 去 掉 一 个 表 ， 我 们 可 以 使 用 DROP TABLE, 


I > CREATE TABLE dummy (dcolumn INT) ; 
2 > DROP TABLE dummy ; 





73.4 ”数据 操作 语言 一 一 DML 


我 们 已 经 在 数据 库 里 定义 了 一 些 表 ， 接 下 来 学 习 如 何人 在 表 里 插 入 、 修 改 和 至 找 数据 。 图 7-3 提 供 了 数据 库 的 整体 结构 概 狐 : 粗 体 的 列 名 代表 
主键 ,和 斜体 表示 外 键 ， 箭头 则 表示 哪些 外 键 和 哪些 主键 天 联 。 


birthdays foodranking 


nameid rankid foodid 


firstname foodid foodname 
lastname nameid healthy 





birthday rank | Kcalp 100g 


图 7-3 SQL 数据 库 结构 示例 


下 面 的 三 条 SQL 语句 使 用 INSERT INTO 命 令 给 我 们 的 表 填 元 数据 。 在 选 定 了 要 填充 数据 的 表 名 之 后 ， 我 们 还 要 指定 包含 在 括号 里 的 列 名 ， 
来 声明 数据 提供 给 哪些 列 ， 以 及 它们 的 顺序 。 如 果 没 有 指定 列 名 ， 融 必须 按 表 定义 时 的 相同 顺序 来 提供 所 有 人 列 的 数据 。 因 为 每 个 表 都 包含 了 一 
个 用 id 数 字 目 动 填充 的 列 ， 如 nameid、foodid、rankid， 我 们 就 无 须 手 工 指定 这 些 信息 ， 而 是 可 以 让 DBMS 来 处 理 它 。 注 意 ， 每 个 非 数 字 值 
(文本 和 日 期 ) 都 是 包含 在 单 引 号 “里 的 。 


VV Vv Vv VV Vv VV VV VV VV VV WV V 





INSERT INTO birthdays (firstname, lastname, birthday) 
VALUES ('Peter', 'Pascal', '1991-02-01'), 

('Paul', 'Panini', '1992-03-02'), 

('Mary', 'Meyer', '1993-04-03') ; 


INSERT INTO foodtypes (foodname, healthy, kcalp100gq) 
VALUES ('spaghetti', GO. D-dSe). 

('hamburger', D 和， 

TO Salanta 1, .043), 

('chocolate', O, .546), 
('fish fingers', 0, .290) ; 
INSERT INTO foodranking (nameid, foodid, rank) 
VALUES (1, u bjs 

(i; 2; 2a: 

ime Se Li; 

ay “Sy Ali 

ios Sy vs 

(3r S; a] F 


更 新 和 删除 数据 中 的 行 ， 我 们 必须 指定 要 更 新 或 删除 的 行 。 为 此 我 们 可 以 利用 WHERE 子 句 。 新 建 一 个 列 ， 用 于 记录 某 个 食物 类 型 的 能 量 是 


否 大 于 0.2kcaly/100g。 为 了 做 到 这 一 点 ， 我 们 要 告诉 DBM SS 新建 一 个 列 并 更 新 该 列 。 四 在 最 后 一 步 ， 我 们 还 会 删除 该 列 : 


A A WW N = 


SET SQL SAFE UPDATES 
ALTER TABLE foodtypes ADD COLUMN highenergy INT ; 
UPDATE foodtypes SET highenergy=1 WHERE kcalpl00g > 0.2 ; 


UPDATE foodtypes SET highenergy=0 WHERE kcalpl00g <= 0.2 ; 
ALTER TABLE foodtypes DROP COLUMN highenergy ; 





接 下 来 我 们 再 看 另 一 个 删除 数据 的 例子 。 先 用 假 数据 创建 一 个 行 ， 然 后 删除 该 行 : 


> INSERT INTO foodtypes (foodname, healthy, kcalp100g) 
> VALUES ("Dominic's incredible pancakes", NULL, NULL) ; 


W” N = 


> DELETE FROM foodtypes WHERE foodname = "Dominic's incredible pancakes" ; 





数据 检索 的 工作 原理 和 插入 数据 相似 ， 也 是 通过 使 用 39FELECT 命 令 来 完成 的 。 在 SELECT 命令 之 后 ， 我 们 指定 需要 检索 的 列 ， 然 后 是 天 键 字 
FROM 和 要 获取 数据 的 表 。 下 面 的 查询 检索 birthdays 表 的 所 有 人 列 : 


> SELECT * FROM birthdays ; 


Nn we N 一 


| Pascal | 1991-02-01 | 
| Panini | 1992-03-02 | 
| 1993-04-03 | 


aon aN 





] 
2 
3 
4 
5 | 1991-02-01 | 
6 | | 1992-03-02 | 
7 | | 1993-04-03 | 
8 





SELECT firstname, birthday FROM birthdays ; 


Ww N = 


tA = 


| 1991-02-01 | 
| 1992-03-02 | 
| 1993-04-03 | 


aon A 





到 目前 为 止 ， 我 们 只 检索 了 来 自 单 表 的 数据 ， 但 通常 需要 从 多 个 表 合 并 数据 。 合 并 数据 的 工作 可 以 用 JOIN 命令 完成 ， 类 似 于 R 里 的 
merge () 函数 。 合 并 方式 有 4 种 : BI 


INNER JOIN 会 返回 在 两 个 表 里 都 能 匹配 的 行 。 
LEFTJOIN 会 返回 第 一 个 表 能 匹配 的 行 。 
- RIGHT JOIN 会 返回 第 二 个 表 能 匹配 的 行 。 


- FULL JOIN 会 返回 其 中 任何 一 个 表 能 匹配 的 行 。 


为 了 演示 合并 的 工作 原理 ， 我 们 考虑 三 个 例子 ， 其 中 合并 来 自 birthdays 和 foodranking 表 的 数据 。 两 个 表 是 通过 nameid 关 联 起 来 的 。 我 
们 会 根据 这 个 id 来 匹配 行 ， 也 就是 说 来 自 两 个 表 的 信息 是 通过 nameid 的 相同 值 合并 到 一 起 的 。 


为 了 显示 合并 语句 里 的 差异 ， 我 们 向 birthdays 表 里 加 入 一 行 ， 让 它 的 nameid 值 不 包含 在 foodranking 表 里 : 


| > INSERT INTO birthdays (nameid, firstname, lastname,birthday) 
> VALUES (10,"Donald", "Docker", "1934-06-09" ) 


[一 





现在 ，birthdays 表 多 出 来 一 行 : 


> SELECT * FROM birthdays ; 


Pascal 1991-02-01 
Panini 1992-03-02 
Meyer 1993-04-03 
Docker 1934-06-09 


oo NY NN A U N 一 
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回想 一 下 食物 排名 表 ( 见 表 7-5) 。 下 面 第 一 个 JOIN 命令 是 一 个 inner join ， 它 要 求 两 个 表 的 键 匹配 。 因 此 ， 只 有 和 Peter、Paul 和 Mary 相 
关 的 信息 才能 出 现在 结果 表 里 ， 因 为 Donald 并 不 是 在 两 个 表 里 都 有 nameid: 


SELECT birthdays.nameid, firstname, lastname, birthday, foodid, rank 
FROM birthdays 

INNER JOIN foodranking 

ON birthdays.nameid=foodranking.nameid ; 


Pascal 1991-02-01 
Pascal 1991-02-01 
Panini 1992-03-02 
Meyer 1993-04-03 
Meyer 1993-04-03 

1993-04-03 
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合并 实际 上 是 对 SELECT 语句 的 扩展 。 在 普通 的 SELECT 语句 里 ， 我 们 首先 指定 该 命令 ， 然 后 是 需要 检索 的 询 名 。 注 意 ， 检 索 的 列 可 能 来 自 
两 个 表 。 如 果 人 在 两 个 表 里 人 存在 重 名 的 列 ， 它 们 融 必 须 用 表 名 作为 前 缀 ， 以 便 澄清 我 们 指定 的 是 哪个 列 。 例 如 ，birthdays.nameid 指 的 是 生日 表 
里 的 名 字 id。 列 声明 的 后 面 是 FROM 加 上 第 一 个 表 的 名 字 。 和 普通 SELECT 语句 相 比 ， 这 里 指定 了 合并 关键 字 ， 即 INNER JOIN ， 然 后 是 第 二 个 
表 的 名 字 。 利 用 ON 这 个 天 键 字 ， 我 们 指定 了 哪个 列 作为 匹配 的 键 。 


不 出 所 料 ，Donald 并 没有 出 现在 结果 表 里 ， 因 为 他 的 id 没有 包括 在 foodranking 表 中 。 此 外 ， 结 果 表 给 每 种 食物 喜好 留 了 一 行 ， 这 样 像 名 
字 和 生日 这 些 来 目 生日 表 的 信息 会 在 必要 时 重复 出 现 。 


SELECT birthdays.nameid, firstname, lastname, birthday, foodid, rank 
FROM birthdays 

LEFT JOIN foodranking 

ON birthdays .nameid=foodranking.nameid ; 


Pascal 1991-02-01 
Pascal 1991-02-01 
Panini 1992-03-02 
Meyer 1993-04-03 
Meyer 1993-04-03 
Meyer 1993-04-03 
Docker 1934-06-09 





因为 LEFT JOIN 只 要 求 键 出 现在 第 一 个 (或 者 说 左边 的 ) Æ, Donald Docker 这 次 就 包括 在 结果 表 里 了 ， 但 在 食物 喜好 表 里 没有 他 的 信 
息 ， 所 以 Donald Docker 对 应 的 这 两 列 都 显示 了 NULL 值 。 如 果 我 们 声明 用 另外 的 方式 来 合并 ， 让 foodranking 变 成 第 一 个 表 ，birthdays 变 成 
第 二 个 ， 那 么 Donald 就 不 会 出 现在 结果 里 ， 因 为 它 的 id 不 属于 foodranking 表 的 一 部 分 。 


在 join 语句 中 也 可 以 合并 超过 一 个 表 。 要 获得 个 人 食物 喜好 以 及 食物 的 实际 名 称 ， 我 们 就 需要 来 自 3 个 表 的 列 。 为 了 获取 这 些 信 息 ， 我 们 可 
以 扩展 前 面 例子 里 的 INNER JOIN ， 加 入 另 一 个 join， 指 定 foodranking 和 foodtypes 通 过 它们 的 foodid 列 相关 ， 并 请 求 获取 foodname 列 : 


SELECT firstname, rank, foodname FROM birthdays 
INNER JOIN foodranking 

ON birthdays.nameid = foodranking.nameid 

INNER JOIN foodtypes 

ON foodranking.foodid foodtypes.foodid ; 


spaghetti 
hamburger 
hamburger 
fruit salad 
chocolate 
fish fingers 





在 学 习 7.3.5 节 之 前 ， 让 我 们 先 清理 一 下 ， 从 数据 库 删 除 有 关 Donald 的 数据 。 


| > DELETE FROM birthdays WHERE firstname = 'Donald' ; 


7.3.5 7 


我 们 已 经 在 SQL 语 句 中 用 到 WHERE 子 句 ， 它 能 把 数据 操作 限定 在 特定 的 一 些 行 ， 但 我 们 既 没 有 完整 地 探讨 该 子 句 ， 也 没有 提 到 SQL 还 有 其 
他 的 子 句 。 


我 们 先 扩展 关于 WHERE 子 句 的 知识 。 我 们 已 经 知道 ， 它 会 限定 数据 操作 并 检索 特定 的 一 些 行 。 限 定 条 件 是 以 “ 列 名 操作 符 值 ”的 形式 声明 
的 ， 在 这 里 操作 符 定 义 了 比较 的 类 型 ， 信 定义 的 则 是 比较 的 内 容 。 可 能 的 操作 符 是 用 于 相等 /不 等 的 (= 和 ! =) 、 值 小 于 (小 于 等 于 ) 或 大 于 
(大 于 等 于 ) 的 (<、<=、>、>=) 、 基 本 字符 模式 匹配 的 LIKE， 以 及 指定 一 组 可 接受 的 值 的 IN。 


我 们 也 可 以 利用 AND 和 OR 来 创建 更 加 复杂 的 限定 条 件 ， 甚 至 可 以 使 用 括号 来 对 限定 条 件 进 行 旋 套 。 我 们 先 看 看 一 个 组 合 的 WHERE 子 句 ， 
里 面 有 2 个 条 件 ， 代 码 片 段 如 下 所 示 。 该 语句 从 所 有 3 个 表 里 检索 数据 ， 但 结果 行 的 集合 用 WHERE 语句 限制 为 那些 食物 喜好 排名 (rank) 大 于 或 
等 于 2 并 且 firstname 匹 配 了 'Mary 的 行 。 


SELECT firstname, foodname, rank FROM birthdays 

INNER JOIN foodranking ON birthdays.nameid = foodranking.nameid 
INNER JOIN foodtypes ON foodranking.foodid = foodtypes.foodid 
WHERE rank >= 2 AND firstname = 'Mary' 


1 


| hamburger 
| fish finaers 





BR-MEDBA—MREBASWHEREF A, HEA T FRFR (firstname<'Peter’) 。firstname 永 远 不 应 该 匹配 .Mary ， 而 子 
名 的 其 他 部 分 说 明了 要 么 healthy 必 须 等 于 1， 要 么 firstname 必 须 是 一 个 按 字 典 排序 排 在 Peter 之 前 的 字符 串 。 


SELECT firstname, foodname, healthy FROM birthdays 

INNER JOIN foodranking ON birthdays.nameid = foodranking.nameid 
INNER JOIN foodtypes ON foodranking.foodid foodtypes.foodid 
WHERE (healthy = 1 OR firstname < 'Peter') AND firstname != 'Mary' 


. 
1 


> SELECT firstname, lastname FROM birthdays 
WHERE firstname IN ('Peter','Paul','Karl') 


1 


| Pascal 
| Panini 





最 后 一 个 语句 示范 了 LIKE 的 用 法 : % 是 任意 数量 字符 的 通配符 ， 而 是 任何 单个 字符 的 通配符 。 该 语句 的 要 求 是 ， 结 果 表 中 的 每 一 行 要 么 是 
firstname 在 任何 数量 字符 之 后 的 字符 串 结尾 处 包含 了 er， 要 么 是 lastname 在 任何 数量 的 字符 之 后 包含 了 一 个 e， 并 且 e 后 面 只 能 是 单个 字符 。 


> SELECT firstname, lastname FROM birthdays 
> WHERE firstname LIKE '%er' OR lastname LIKE '%e '; 
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第 二 个 子 句 是 ORDER BY 子 句 ， 它 让 我 们 能 对 结果 的 列 值 进行 排序 。 下 面 你 可 以 看 到 几 个 对 数据 检索 结果 进行 排序 的 例子 。 排 序 的 标准 是 
按 升 序 排列 。 


SELECT firstname FROM birthdays ORDER BY firstname ; 


co ~] OW nA A IN 一 





要 得 到 相反 的 结果 ， 我 们 可 以 增加 关键 字 DESC。 也 可 以 指定 多 于 一 列 来 定义 排序 条 件 ， 并 为 每 一 列 选择 它 适 用 于 增 序 还 是 降序 。 


> SELECT firstname FROM birthdays 
> ORDER BY birthday DESC, firstname ASC ; 


O oo HN & W HO — 





GROUP BY 子 句 支 持 值 的 聚集 。 聚 集 的 类 型 取决 于 我 们 所 使 用 的 特定 聚集 函数 。 和 内 在 下 面 的 例子 里 ，GROUP BY 的 用 法 配合 COUNT 聚 集 
函数 作为 示例 ， 返 回 有 关 每 个 人 有 多 少食 物 喜好 的 计数 。 结 果 是 一 个 表 ， 其 中 每 行 对 应 有 生日 表 里 唯 一 的 nameid 及 其 食物 喜好 的 记录 次 数 。 


SELECT firstname, COUNT(rank) FROM birthdays 
INNER JOIN foodranking ON birthdays.nameid = foodranking.nameid 


INNER JOIN foodtypes ON foodranking.foodid = foodtypes.foodid 
GROUP BY birthdays.nameid ; 


e Ww N = 








要 对 来 自 GROUP BY 子 句 产生 的 聚集 表 进 行 过 滤 ， 束 需要 一 个 特殊 的 子 句 ， 即 WHERE 子 句 ， 它 可 以 和 GROUP BY 配合 使 用 ， 但 它 排除 的 是 
聚集 前 的 行 ， 而 不 是 之 后 的 。 而 使 用 HAVING， 就 可 以 过 滤 聚 集 后 的 结果 了 。 


SELECT firstname, COUNT(rank) FROM birthdays 
INNER JOIN foodranking ON birthdays.nameid foodranking.nameid 
INNER JOIN foodtypes ON foodranking.foodid foodtypes.foodid 


GROUP BY birthdays.nameid 
HAVING COUNT (rank) > 1 





73.6 事务 控制 语言 一 一 TCL 


SQL 语 句 通 弟 是 语句 被 友 送 给 DBMS 之 后 执行 ， 并 且 产 生 持 久 化 的 结果 ， 除 非 友 生 了 某 些 错误 。 这 种 标准 行为 可 以 通过 利用 START 


TRANSACTION 明 确 启动 事务 进行 修正 。 使 用 该 语句 会 创建 一 个 保存 点 。 这 样 就 不 再 会 立即 执行 每 个 SQL 语 句 并 将 其 持久 化 ， 而 是 让 每 条 语句 
暂时 性 地 执行 ， 直 到 用 户 通过 COMMIT 命 令 明确 提交 。 如 果 在 发 出 COMMIT 语 句 之 前 发 生 了 错误 ， 在 最 后 一 个 保存 点 之 前 的 所 有 修改 都 会 被 逆 


转 回来 。 
我 们 可 以 通过 要 求 DBMS 进 行 ROLLBACK 直 到 最 后 一 个 保存 点 ， 也 能 达到 相同 的 效果 。 下 面 这 个 例子 中 增加 了 一 些 数据 ， 然 后 数据 库 被 逆 
转 到 设置 保 仓 点 时 候 的 状态 。 


l START TRANSACTION ; 

2 INSERT INTO birthdays (firstname, lastname) 
3 VALUES ('Simon', 'Sorcerer') ; 

4 SELECT firstname, lastname FROM birthdays ; 
a 

6 

7 

8 Pascal 

9 Panini 

10 Meyer 

11 Sorcerer | 

12 


13 > ROLLBACK ; 
14 > SELECT firstname, lastname FROM birthdays ; 


15 
16 
17 
18 | Pascal 
19 | Panini 





[1] 这 里 的 例子 是 用 MySQL 5.5.34 4e@MySQL Workbench CE 5.2.47 经 过 测试 后 而 建立 连接 的 。 你 可 以 从 http://www.mysgl.com 下 载 MySQL Community 
Servetr 和 MySQL Wotkbench。 当 页 面 要 求 用 账号 登录 或 注册 时 ， 可 以 点 击 “No thanks, just start my download” #41, 或 者 ， 如 果 你 愿意 ， 也 可 以 
创建 一 个 账号 。 

[2] 第 一 行 是 MySQL 特 有 的 语句 。 在 默认 情况 下 ，MySQL 不 允许 更 新 操作 是 由 一 个 不 指向 主键 的 WHERE 子 句 声明 的 。 (所 以 第 一 行 的 “SET 
SQL_SAFE_UPDATES=0;” 相当 于 把 这 个 SQL_SAFE_UPDATES 选 项 设 定 为 flse， 这 样 这 个 默认 限制 就 不 起 作用 了 ， 之 后 的 “UPDATE 
译 者 注 ) 

[3] 注意 ， 对 不 同 的 合并 命令 的 支持 是 和 具体 DBMS 有 关 的 。 例 如 ，SQLite 只 支持 INNER JOIN 和 LEFT JOIN, ， 而 MySQL 没 有 实现 FULL JOIN. 


foodtypes SET highenerey=1 WHERE kcalp100g>0.2; 才能 正常 执行 。 





[4] 聚集 浮 数 举例 如 下 : 平均 数 (AVG) 、 计 数 (COUNT) 、 第 一 个 值 (FIRST) 、 最 大 值 (MAX) 以 及 总 和 (SUM) © 


74 数据 库 实 战 


7.4.1 人 理 数据 库 的 R 组 件 


R 中 有 多 个 可 以 连接 DBMS 的 组 件 ， 一 种 方式 是 使 用 依赖 于 DBI 组 件 (R Special Interest Group on Databases 2013) 的 组 件 ， 例 
40, RMySQL (James and DebRoy 2013) 、ROracle (Denis Mukhin and Luciani 2013) 、RPostgreSQL (Conway et al.2013) 和 
RSQLite (James and DebRoy 2013) ， 通 过 它 来 建立 到 特定 DBMS 的 “本 地 ”连接 。DBI 组 件 定义 了 虚拟 函数 ， 而 针对 特定 数据 库 的 组 件 则 
针对 具体 数据 库 实现 了 这 些 消 数 。 这 种 方式 的 增值 点 是 ， 虽 然 有 一 些 通 用 遂 数 集 应 该 对 所 有 数据 库 都 是 同样 有 效 的 ， 而 不 同 的 组 件 作者 可 以 只 
针对 一 种 类 型 的 数据 库 进 行 有 针对 性 的 开 友 和 维护 工作 。 


另 一 种 方式 是 依赖 RODBC (Ripley and Lapsley 2013) 。 该 组 件 使 用 开放 数据 库 连 接 (Open Database Connectivity, ODBC) 驱动 作 
为 一 种 间接 连接 到 DBMS 的 方法 ， 这 就 要 求 用 户 必 须 先 安 六 和 配置 必要 的 驱动 程序 ， 然 后 才能 在 R 中 使 用 它 。 在 不 同 平 台 和 很 多 种 DBMS 都 有 可 
用 的 ODBC 驱 动 程序 。 它 们 甚至 还 能 针对 根本 不 是 数据 库 的 数据 存储 格式 ， 如 CSV 或 XLS/XLSX。 访 组件 也 提供 了 一 套 通 用 方法 ， 利 用 同一 组 涪 
数 来 管理 不 同类 型 的 数据 库 。 该 方法 不 足 的 一 面 是 ， 它 依赖 在 R 运 行 的 平台 上 是 否 有 能 与 特定 DBM 9 类 型 配套 的 ODBC 驱 动 程序 。 


到 | 底 使 用 哪个 组 件 ， 这 纯粹 是 个 人 品味 问题 ， 同 时 也 取决 于 让 组 件 或 驱动 程序 运行 的 难度 大 小 一 一 据 了 解 ，RSQLite 是 迄今 为 止 唯一 能 做 
到 跨 多 个 平台 开机 即 用 的 组 件 。 所 有 其 他 组 件 都 需要 安 半 驱动 程序 和 (或 ) 进行 组 件 编译 。 


74.2 ”通过 基于 DBI 的 组 件 在 R 里 执行 SQL 


由 于 DBI 组 件 定义 了 一 套 在 R 中 操作 数据 库 的 通用 框架 ， 因 此 所 有 依赖 该 框架 的 数据 库 组 件 都 有 同样 的 工作 方式 ， 不 管 我 们 是 与 何 种 特定 的 
DBM 9 建立 连接 。 要 展示 基于 DBI 的 组 件 是 如 何 工 作 的 ， 束 要 利用 RSQLite。 加 载 已 经 被 绑 定 为 RSQLite 文 件 的 生日 表 ， 并 执行 一 个 简单 的 
SELECT 语句 : 


R> # loading package 
R> library (RSQLite) 


R> # establish connection 
R> sqlite <- dbDriver ("SQLite") 
R> con <- dbConnect (sqlite, "birthdays.db") 


Rs # 'plain' SQL 
R> sql <- "SELECT * FROM birthdays" 
R> res <- dbGetQuery(con, sql) 


R> res 

nameid firstname lastname birthday 
1 1 Peter Pascal 1991-02-01 
2 2 Paul Panini 1992-03-02 
3 3 Mary Meyer 1993-04-03 


R> res <- dbSendQuery (con, sql) 
R> fetch (res) 


nameid firstname lastname birthday 
1 1 Peter Pascal 1991-02-01 
2 2 Paul Panini 1992-03-02 
3 3 Mary Meyer 1993-04-03 


利用 这 些 消 数 ， 束 能 在 R 里 执行 基本 的 数据 库 操作 。 下 面 逐 行 讲解 上 面 的 代码 。 首 先 加 载 KSQLite 组 件 ， 这 样 R 束 知道 如 何 处 理 RSQLite 数 据 
库 。 下 一 步 ， 首 先 定义 驱动 程序 ， 然 后 在 实际 连接 中 使 用 驱动 程序 创建 到 数据 库 的 连接 。 因 为 RSQLite 数 据 库 没 有 密码 ， 所 以 在 连接 时 不 需要 太 
多 声明 ， 只 需要 指定 数据 库 驱 动 程序 和 数据 库 的 位 置 即 可 。 现 在 束 可 以 查询 数据 库 了 。 我 们 有 2 个 消 数 可 以 用 来 做 这 件 事 : dbGetQuery () 和 
dbSendQuery () 。 这 两 个 消 数 都 是 请 求 DBMS 执 行 单个 查询 ， 它 们 之 间 的 差别 体现 在 对 DBMS 返 回 结 果 的 处 理 方式 上 。 前 者 提取 所 有 结果 并 
把 它们 转化 为 一 个 数据 框 ， 而 后 者 不 会 提取 任何 结果 ， 除 非 我 们 通过 fetch () 函数 明确 地 要 求 R 这 么 做 。 


由 于 我 们 可 以 发 送 特定 DBMS 支 持 的 任何 SQL 查 询 ， 对 于 在 R 中 完全 地 控制 数据 库 ， 上 述 的 4 个 函数 足够 了 。 不 过 ， 基 于 DBI 的 组 件 还 提供 了 
其 他 几 个 函数 。 这 些 函 数 并 没有 增加 更 多 的 特性 ， 而 是 有 助 于 让 R 和 DBMS 之 间 的 通信 更 加 方便 。 它 们 中 的 例子 有 : 获得 数据 库 属 性 概况 的 函数 
dbGetlnfo () ， 以 及 获取 数据 库 中 表 的 清单 的 国 数 dbListTables () : 


R> # general information 
R> dbGetInfo(con) [2] 
SserverVersion 

fat WS 


R> # listing tables 
R> dbListTables (con) 
[1] "birthdays" "foodranking" "foodtypes" "sqlite sequence" 


还 有 一 些 为 数 是 用 来 读 、 写 和 删除 表 的 ， 因 为 名 字 一 目 了 然 ， 所 以 用 起 来 很 方便 : dbReadTable () . dbWriteTable () 、 
dbExistsTable () 和 dbRemoveTable () 。 


R> # reading tables 
R> res <- dbReadTable(con, "birthdays") 


R> res 

nameid firstname lastname birthday 
1 ak Peter Pascal 1991-02-01 
2 2 Paul Panini 1992-03-02 
3 3 Mary Meyer 1993-04-03 


R> # writing tables 
R> dbWriteTable(con, "test", res) 
[1] TRUE 


R> # table exists? 
R> dbExistsTable(con, "test") 
[1] TRUE 


R> # remove table 
R> dbRemoveTable(con, "test") 
[1] TRUE 


要 查看 某 个 R 对 象 被 存 入 数据 库 时 分 配 的 数据 类 型 ， 可 以 使 用 dbDataType () : 
R> # checking data type 


R> dbDataType(con, resS$nameid) 


[1] "INTEGER" 
R> dbDataType(con, res$firstname) 


L1] "TESI" 
R> dbDataType (con, ressbirthday) 
LLI "TEST" 


我 们 也 可 以 启动 、 回 滚 和 提交 事务 ， 还 可 以 关闭 到 DBMS 的 连接 : 


R> # transaction management 
R> dbBeginTransaction (con) 
[1] TRUE 

R> dbRollback (con) 

[1] TRUE 

R> dbBeginTransaction (con) 
[1] TRUE 

R> dbCommit (con) 

[1] TRUE 

R> # closing connection 
R> dbDisconnect (con) 

[1] TRUE 


74.3 ”通过 RODBC 在 R 里 执行 SQL 


通过 RODBC 组 件 与 数据 库 进行 通信 ， 和 前 面 基 于 DBI 的 组 件 非常 相似 。 一 些 函 数 可 以 把 SQL 语句 传递 给 DBMS， 另 外 一 些 便 利 函 数 让 用 户 
不 需要 声明 SQL 语 句 。11] 


首先 建立 到 数据 库 的 连接 ， 并 传递 一 个 简单 的 SELECT* 语 句 来 读 取 生日 表 的 所 有 数据 行 : 


R> # reading package 
R> require (RODBC) 


R> # establishing connection 
R> con <- odbcConnect ("db1") 


R> # 'plain' SQL 
R> sql <- "SELECT * FROM birthdays ;" 
R> res <- sqlQuery(con, sql) 


R> res 

nameid firstname lastname birthday 
E ii Peter Pascal 1991-02-01 
2 2 Paul Panini 1992-03-02 
a 3 Mary Meyer 1993-04-03 


上 面 的 代码 建立 数据 库 连 接 ， 把 SQL 语 句 传递 给 DBMS， 这 个 过 程 和 我 们 前 面 讲 到 的 非常 相似 。 不 同 之 处 是 这 里 不 需要 指定 任何 驱动 程 


， 因 为 驱动 程序 和 其 他 连接 信息 已 经 在 ODBC 管 理 器 里 声明 了 ， 所 以 只 需要 引用 在 ODBC 管 理 器 里 已 经 给 出 的 本 次 连接 的 名 字 即 可 。 


除了 SQL 语句 的 直接 执行 ， 它 还 有 很 多 类 似 基于 DBI 的 组 件 里 的 便利 函数 。 要 获得 有 关连 接 的 一 般 信 息 和 用 到 的 驱动 程序 ， 或 列 出 数据 库 中 


所 有 的 表 ， 可 以 使 用 odbcGetlnfo () 和 sqlTables () : 


R> # general information 
R> odbcGetInfo(con) [3] 
Driver ODBC Ver 
i e e 
R> # listing tables 
R> sglTables(con) L 3:5] 
TABLE NAME TABLE TYPE REMARKS 


T birthdays TABLE 
2 foodranking TABLE 
3 foodtypes TABLE 


Ayk SAU ODBC Eas & a ARAYODBC3KATE RISA, Bye RodbcData-Sources () 。 该 国 数 会 表明 我 们 连接 的 db1 是 基于 


MySQL 驱 动 程序 5.2 版 : 


R> odbcDataSources () 
dbl 
"MySQL ODBC 5.2 ANSI Driver" 


我 们 也 可 以 通过 简单 地 调用 sqlFetch () 来 请 求 整个 表 ， 而 无 须 声 明 SQL 语 句 : 


R> # 'plain' SQL 
R> res <- sgqlFetch(con, "birthdays") 


R> res 

nameid firstname lastname birthday 
1 i Peter Pascal 1991-02-01 
2 2 Paul Panini 1992-03-02 
3 3 Mary Meyer 1993-04-03 


相 类 似 ， 我 们 可 以 利用 便利 函数 编写 R 数 据 框 并 人 存 入 SQL 表 里 。 还 可 以 将 表 清 空 或 彻底 删除 : 


R> # writing tables 

R> test <- data.frame(x = 1:3, y = letters[7:9]) 
R> sqlSave (con, test, "test") 

R> sgqlFetch(con, "test") 


x Y 
lig 
2 20n 
-E 


R> # empty table 
R> sqlClear (con, "test") 
R> sqlFetch(con, "test") 


[l] x y 
<0 rows> (or O-length row.names) 


R> # drop table 
R> sgqlDrop(con, "test") 


[1] 这 个 例子 在 MySQL 驱 动 程序 下 有 效 。 这 些 驱 动 程序 可 以 访问 http://dev.mysql.comy/conhectot/odbc/downloadqs/ 获 取 。MySQL ODBC 了 驱动 程序 对 
于 所 有 平台 都 是 稳定 可 用 的 。 如 果 你 用 自己 的 MYSQL 数据 库 跟 着 7.4.2 节 里 的 例子 操作 了 一 遍 ， 你 现在 就 可 以 连接 到 它 来 尝试 这 个 例子 了 。 


小 结 


在 本 章 我 们 学 习 了 数据 库 、SQL 和 几 个 可 以 连接 到 数据 库 并 访问 其 中 保存 数据 的 R 组 件 。 简 而 言 之 ， 关 系 型 数据 库 束 是 通过 键 相互 关联 的 一 
些 表 。 虽 然 R 能 够 处 理 数据 ， 但 数据 库 为 适合 在 特定 环境 里 处 理 的 特定 数据 管理 问题 提供 了 完整 的 解决 方案 。SQL 是 在 用 户 和 范围 广泛 的 数据 库 
管理 系统 之 间 进 行 通信 的 通用 语言 。 尽 管 SQL 让 我 们 能 定义 要 完成 的 任务 ， 但 实际 上 是 DBMS 在 以 一 种 可 靠 的 风格 管理 这 些 任 务 的 完成 过 程 。 
作为 一 种 多 用 途 语 言 ，SQL 可 以 用 来 管理 用 户 权 限 、 定 义 数 据 结构 、 导 入 、 修 改 和 检索 数据 ， 以 及 控制 事务 。 我 们 已 经 看 到 ，R 能 够 和 各 种 数据 
库 进 行 通信 并 提供 了 额外 的 便利 冰 数 。 由 于 DBM3s 的 设计 是 可 靠 并 局 效 处 理 数据 ， 它 们 可 以 成 为 有 限 内 存 、 数 据 多 用 途 、 多 用 户 访问 数据 、 复 
杂 数 据 存 储 和 远程 访问 数据 的 解决 方案 。 


延伸 阅读 


天 系 型 数据 库 和 3QL 是 Web 技 术 社区 的 一 部 分 ， 在 大 量 论 坛 、 博 客 和 手册 中 都 有 涉及 。 因 此 ， 对 于 大 部 分 问题 ， 在 普通 的 搜索 引擎 里 输入 
问题 ， 束 能 轻松 找到 解决 办 法 。 要 是 你 想 学 习 某 个 特定 DBMS 的 完整 内 容 ， 那 么 对 该 主题 的 全 面 讲解 会 让 你 更 有 收获 。 对 于 MySQL 的 介绍 ,我 
们 推荐 Beaulieu (2009) 。 喜 欢 更 基础 一 些 的 读者 会 友 现 the SQL Bible (Kriegel and Trukhnov 2008) 或 Relational Database Design and 
Implementation (Harrington 2009) 是 有 帮助 的 资源 。 最 后 但 同样 重要 的 是 the SQL Pocket Guide (Gennick 2011) ， 它 是 一 本 小 巧 的 袖 
珍 参考 手册 ， 实 为 居家 旅行 必 备 。 


uM 
BE 


下 面 的 习题 建立 在 两 个 比较 真实 的 数据 库 基 础 上 ， 一 个 是 天 于 《宠物 小 精灵 》 (Pokemon) 里 的 人 物 ， 另 一 个 是 关于 选举 、 政 府 和 党 派 的 
数据 。 宠 物 小 精灵 的 数据 由 Francisco 9S.Velazquez 提 供 并 采集 。 我 们 提取 了 其 中 一 些 表 ， 并 把 它们 以 CSV 文 件 的 形式 和 本 章 补充 材料 放 在 一 
起 。 完 整 的 数据 库 可 以 在 https://github.comykikin81/pokemon-sqlite 获 取 。ParlGov 数 据 库 是 由 D 鲜 ing (2013) 提供 的 。 它 包含 了 从 多 个 
来 源 采 集 的 关于 “1945 至 今 欧盟 (EU) 所 有 国家 及 经 合 组 织 (OECD) 大 部 分 成 员 国 的 选举 、 沈 派 及 政府 ”的 数据 。 更 多 相关 信息 可 以 


在 http://parlgov.org 获 取 。 下 载 完 整 的 数据 库 也 是 习题 的 一 部 分 。 
宠物 小 精灵 习题 


1. 加 载 RSQLite 组 件 并 创建 一 个 新 的 RSQLite 数 据 库 ， 名 为 pokemon.sqlite。 


2. 使 用 read.csv2 () 把 pokemon.csv、pokemon species.csv、pokemon stats.csv, pokemon _types.csv, stats.csv, 


type_efficacy.csv 和 types.csv 读 取 到 R 中 ， 并 把 里 面 的 表 写 到 pokemon.sqlite 里 。 碍 看 PokemonReadme.txt 来 了 解 一 下 你 刚刚 导入 的 这 些 
Ko 


3. 使 用 DBI/RSQLite 中 的 函数 把 你 保存 在 数据 库 中 的 表 读 取 回 R 里 并 保存 为 对 象 ， 对 象 名 分 别 是 : pokemon, pokemon species, 
pokemon stats, pokemon types, stats, type efficacyf0types。 


4. 创 建 一 个 查询 ， 在 pokemon 表 里 SELECT 这 些 宠物 小 精灵 中 体重 超过 4000 的 。 下 一 步 ， 创 建 一 个 SELECT 查询 把 pokemon 和 
pokemon _species 表 合并 。 


5. 组 合 前 面 的 SQL 查询 创建 一 个 查询 ，JOIN 两 个 表 并 限定 结果 为 体重 超过 4000 的 宠物 小 精灵 。 
6. 创 建 一 个 查询 ， 从 pokemon_species 表 中 SELECT 所 有 名 字 中 含有 'Nido 的 宠物 小 精灵 名 字 。 
7. 提 取 姓 名 

(a) 创建 一 个 查询 ，SELECT 宠 物 小 精灵 的 名 字 。 

(b) 使 用 dbsendQuery () 向 数据 库 友 送 上 述 查 询 并 把 结果 保存 到 一 个 对 象 里 。 

(c) 在 一 行 里 使 用 三 次 fetch () ， 每 次 检索 另外 5 个 名 字 的 集合 。 

(d) 在 完成 上 述 操作 后 ， 使 用 dbClearResult () 进行 清理 。 
8. 创 建 视图 

(a) 创建 一 个 视图 ， 名 为 pokeview.。 

(b) 它 合并 pokemon 表 和 pokemon_species 表 。 


(c) 并 且 包 含 下 列 信息 : 身高 (height) 和 体重 (weight) 、 物 种 的 识别 码 (species identifier) 、 宠 物 小 精灵 进化 源 id、 进 化 链 
(evolution chain) 的 id， 还 有 宠物 小 精灵 及 其 物种 各 自 的 id。 


(d) 创建 一 个 视图 ， 名 为 typeview。 

(e) 它 合 并 pokemon_types 表 和 types 表 。 

(f) 并 且 包 含 下 列 信 息 : 类 型 的 位 置 (slot) 、 类 型 的 识别 码 ， 以 及 宠物 小 精灵 id、 损 伤 级 别 (damage class) id 和 类 型 的 id。 
(9) 创建 一 个 视图 ， 名 为 statsview。 

(h) 它 合 并 pokemon_stats 表 和 stats 表 。 

(i) 并 且 包含 下 列 信息 : 统计 信息 、 统 计 基 准 值 ， 以 及 宠物 小 精灵 、 统 计 和 损伤 级 别 各 自 的 id。 


9. 利 用 你 创建 的 视图 ， 哪 个 宠物 小 精灵 是 龙 (dragon) 类 型 的 ? 哪个 宠物 小 精灵 有 最 多 的 血 命 (health point) ”哪个 有 最 强攻 击 力 
(attack) 、 防 御 力 (defense) 或 速度 (speed) ? 


ParlGov 习 题 


10. 使 用 download.file () 配套 mode="wb" 选 项 把 资源 http://parlgov.org/stable/static/data/parlgov-stable.db 保 存 为 parlgov.sqlite 


并 建立 一 个 连接 。 
11. 获 取 该 数据 库 中 所 有 表 的 清单 。 根 据 info_data_source， 该 数据 库 用 到 的 是 哪个 外 部 数据 源 ? 
12. 找 出 哪些 国家 的 数据 包含 在 该 数据 库 中 。 
13. 选 举 表 覆 盖 了 哪个 时 间 段 ? 
14. 西 班 牙 、 英 国 和 瑞士 有 多 少 次 时 期 选举 (early election) ? 
15. 创 建 视 图 。 
(a) 创建 一 个 视图 ， 名 为 edata。 
(b) 把 election_result 表 。 


(c) 和 election、country 及 party 表 合并 。 


(d) 让 该 视图 包含 下 列 信息 : 国家 名 、 选 举 日 期 、 党 派 简称 、 党 派 严 语 名 称 、 选 举 忆 席位 (seat) 数 、 该 党 派 赢得 席位 数 、 该 党派 赢得 选 


= (vote) 数 ， 以 及 国家 、 选 举 、 选 举 结果 和 党 派 各 自 的 id。 
(e) 让 该 视图 限定 为 13 类 型 的 选举 〈 即 议会 选举 ) 。 
(f) 将 该 视图 的 数据 读 取 到 R 里 并 保存 到 一 个 对 象 中 。 
(9) 增加 一 个 变量 ,保存 席位 占有 率 (seat share) 。 


(h) 绘制 得 票 占 有 率 (vote share) 与 席位 占有 率 的 统计 图 。 如 果 得 票 占 有 率 和 席位 占有 率 的 差异 超过 20%， 惑 使 用 text () 增加 国家 


16. 在 数据 库 中 找到 下 列 问题 的 答案 : 

(a) 哪个 国家 的 内 阁 (cabinet) 是 由 Lojze Peterle 领 导 的 ? 

(b) 那 一 届 的 政府 有 哪 几 个 党 派 组 阁 (在 内 阁 中 占 了 一 部 分 ) ? 
(c) 在 选举 中 ， 这 几 个 党 派 的 得 票 占有 率 各 是 多 少 ? 

17. 更 多 SELECT 查询 。 

(a) 创建 一 个 查询 ， 从 sqlite_ master 表 对 tbl name 列 进行 SELECT。 


(b) 创建 一 个 查询 ， 从 sqlite_ master 表 对 sq| 列 进行 SELECT， 加 上 WHERE tbl name 等 于 edata 的 条 件 。 把 结果 保存 到 一 个 对 象 里 ， 然 后 
使 用 cat () 显示 该 对 象 的 内 容 。 


(c) 对 于 tbl_name 等 于 view_election 的 条 件 ， 重 复 (b) 的 操作 。 


第 8 章 ”正则 表达 式 和 基本 字符 串 消 数 


Web 上 的 内 容 主要 是 无 结构 的 文本 。 网 络 抓 取 的 一 项 核心 任务 就 是 从 文本 数据 堆 里 采集 和 我 们 研究 问题 相关 的 信息 。 在 无 结构 文本 里 ,我 
们 往往 感 兴趣 的 是 系统 性 信息 ， 特 别 是 当 我 们 想 要 使 用 定量 方法 分 析 数 据 时 。 系 统 性 结构 可 以 是 数字 或 反复 出 现 的 名 字 ， 如 国家 或 地 址 。 我 们 


经 过 三 个 步骤 来 处 理 。 第 一 ， 及 集 无 结构 文本 ;， 第 二， 判定 寻找 的 信息 背后 有 什么 重复 规律 ， 第 三 ， 把 这 些 规律 运用 到 无 结构 文本 里 ， 以 
便 提取 信息 。 本 章 会 关注 后 两 个 步骤 。 我 们 可 以 拿 前 面 几 章 介 绍 的 HTML 网 页 作为 一 个 例子 。 原 则 上 ， 它 们 只 不 过 是 文本 的 集合 。 我 们 的 目标 
口 


w 


永远 是 识别 并 提取 网 页 中 包含 相关 信息 的 那些 部 分 。 理 想 情 况 下 ， 我 们 可 以 利用 XPath 来 做 这 件 事 ， 不 过 有 时 关键 信息 隐藏 在 最 底层 的 信里 


面 。 在 菜 些 情况 下 ， 相 关 的 信息 可 能 散布 企 HTML 网 页 的 各 部 分 ， 使 得 对 网 页 结构 的 分 析 方 法 失去 作用 。 在 本 章 ， 我 们 会 介绍 一 个 强大 的 工 
具 ， 可 以 用 来 在 这 类 情况 下 检索 数据 ， 它 就 是 正则 表达 式 。 正 则 表达 式 为 我 们 提供 了 在 文本 中 系统 化 分 析 规 律 的 一 套 语法 。 


考虑 下 面 的 简单 例子 。 假 如 我 们 采集 了 一 个 由 电视 剧 “ 平 普 森 一 家 ” (The Simpsons) 中 虚构 人 物 的 名 字 和 相应 的 电话 号 码 组 成 的 字符 
。 我 们 的 任务 是 提取 其 中 的 名 字 和 电话 号 码 并 把 它们 存 入 一 个 数据 框 。 


Tit 


R> raw.data <- "555-1239Moe Szyslak(636) 555-0113Burns, C. Montgomery555 
-6542Rev. Timothy Lovejoy555 8904Ned Flanders636-555-3226Simpson, 
Homer5553642Dr. Julius Hibbert" 


我 们 注意 到 的 第 一 件 事 是 名 字 及 电话 号 码 是 以 各 种 格式 出 现 的 。 某 些 电话 号 码 包 含 了 地 区 码 ， 有 些 包 含 横 线 ， 甚 至 还 有 市 括号 的 。 不 过 ， 
虽然 有 这 些 差 异 ， 我 们 也 能 注意 到 所 有 的 电话 号 码 和 名 字 都 有 其 相似 之 处 。 最 重要 的 是 ， 电 话 号 码 都 包含 数字 ， 而 所 有 的 名 字 都 包含 了 字母 字 
符 。 我 们 可 以 利用 这 个 知识 编写 2 个 正则 表达 式 ， 提 取出 我 们 所 感 兴趣 的 信息 。 当 前 ,不 必 担 心 立 数 的 细节 问题 。 它 们 只 是 用 来 作为 本 章 要 解决 
问题 的 示例 。 我 们 会 学 习 组 成 伍 询 的 各 种 元 素 ， 还 有 它们 在 不 同 场景 下 如 何 运 用 ， 从 而 提取 出 信息 并 转化 成 结构 化 的 格式 。8.1.3 书 会 讨论 这 个 
例子 。 


R> library (stringr) 


R> name <- unlist(str extract all(raw.data, "[[:alpha:]., ]{2,}")) 
R> name 

[1] "Moe Szyslak" "Burns, C. Montgomery" "Rev. Timothy Lovejoy" 
[4] "Ned Flanders" "Simpson, Homer" "Dr. Julius Hibbert" 


R> phone <- unlist (str extract all(raw.data, "\\(?(\\d{3})?\\)? 


(-| )?\\a{3}(-| )?\\d{4}")) 


R> phone 
LL] "555-1239" "(636) 555-0113" "555-6542" "555 8904" 
[5] "636-555-3226" "5553642" 


把 该 结果 输入 一 个 数据 框 : 


R> data.frame (name = name, phone = phone) 
name phone 

i Moe Szyslak 555-1239 

2 Burns, C. Montgomery (636) 555-0113 

3 Rev. Timothy Lovejoy 555-6542 

~ Ned Flanders 555 8904 

5 Simpson, Homer 636-555-3226 

6 Dr. Julius Hibbert 5553642 


时 然 R 提 供 了 完成 这 类 任务 必要 的 主 函 数 ， 但 R 并 不 是 针对 字符 串 操作 而 设计 的 。 因 此 ， 相 天 的 函数 有 时 候 会 缺乏 连贯 性 。 由 于 近年 来 文本 
挖掘 尤其 是 自然 语言 处 理 的 重要 性 持续 增长 ， 有 几 个 在 R 中 辅助 文本 操作 的 组 件 已 经 问世 了 。 在 下 面 的 小 书 以 及 本 书 的 后 续 部 分 ， 我 们 主要 依赖 
stringr 组 件 ， 因 为 它 提供 了 我 们 所 需 的 大 部 分 字符 处 理 能 力 ， 而 且 它 能 实现 更 具 一 致 性 的 编码 习惯 (Wickham 2010) 。 


8.1 节 会 按照 R 中 实现 的 方式 来 介绍 正则 表达 式 。8.2 节 提供 了 关于 字符 串 操 作 的 实际 运用 方式 的 概述 。 这 个 概述 是 通过 讲解 stringr 组 件 中 可 
用 的 命令 进行 的 。 如 果 你 之 前 用 过 正则 表达 式 ， 可 以 跳 过 8.1 节 。8.3 节 用 字符 编码 的 某 些 特 性 作为 结尾 ， 字 符 编 码 是 网 络 抓 取 的 一 个 重要 概念 。 


8.1 正则 表达 式 


正则 表达 式 是 用 于 搜索 和 操作 文本 数据 的 概括 性 文本 特征 。 严 格 意 义 上 ， 与 其 襄 它 们 是 一 个 工具 ， 不 如 说 它们 是 如 何 通过 各 种 函数 对 字符 


串 进行 查询 的 惯例 。 本 节 会 介绍 在 R 中 实现 的 扩展 正则 表达 式 的 基本 组 成 部 分 。 下 面 的 字符 串 会 作为 贯穿 本 节 的 例子 : 


R> example.obj <- "1. A small sentence. - 2. Another tiny sentence." 


8.1.1 严格 的 字符 匹配 


最 基础 的 层次 是 字符 和 字符 的 匹配 ， 即 使 正则 表达 式 也 是 如 此 。 因 此 ， 从 一 个 字符 串 提 取 一 个 子 串 融 会 得 到 子 串 本 身 ， 如 果 有 : 


R> str extract (example.ob]J], "small") 
[1] "small" 


Al, KASARE — NRA: 


R> str extract (example.obj, 


"banana" ) 
[1] NA 


这 里 及 本 市 其 他 部 分 使 用 的 函数 是 来 自 stringr 组 件 的 str_extract () ， 我 们 假定 这 个 组 件 在 所 有 后 续 例 子 里 都 是 已 经 加 载 了 的 。 访 函数 的 


， 这 样 首先 输入 要 被 操作 的 字符 串 ， 然 后 是 要 查找 的 表达 式 。 注 意 ， 这 里 和 大 部 分 基础 函数 (如 
grep () 或 grepl O ) 有 差别 ， 在 那些 基础 函数 里 ， 正 则 表达 式 通常 是 第 一 个 输入 。 半 该 函数 会 在 一 个 给 定 的 字符 串 里 返回 与 给 定 正则 表达 式 
匹配 的 第 一 个 实例 。 我 们 也 可 以 通过 调用 str extract all () 函数 要 求 R 提 取出 每 一 个 匹配 的 结果 。 


定义 是 str extract (string, pattern) 


R> unlist (str extract all(example.obj, 


"sentence" ) ) 
[1] "sentence" "sentence" 


stringr 组 件 在 很 多 情况 下 都 提供 了 str whatever () 和 str whatever all () 两 个 函数 。 前 者 会 找到 匹配 字符 串 的 第 一 个 实例 ， 而 后 者 会 访 
可 到 所 有 匹配 的 实例 。 所 有 这 些 函 数 的 语法 都 是 把 有 关 的 字符 向 量 作为 第 一 个 元 素 ， 正 则 表达 式 作 为 第 二 个 ， 所 有 可 能 的 其 他 值 放 在 它们 之 


后 。 函 数 的 一 致 性 是 我 们 偏好 于 使 用 Hadley Wickham (2010) 所 开发 stringr 组 件 的 主要 原因 。 我 们 会 在 8.2 节 更 详细 地 介绍 该 组 件 。 要 了 解 基 
础 R 和 stringr 中 遂 数 的 总 体 对 应 情况 ， 请 参见 表 8-5。 


由 于 str_extract_all () 通常 可 以 对 多 个 字符 串 进 行 调 用 ， 所 以 结果 是 作为 一 个 列表 返回 的 ， 每 个 列表 元 素 提供 了 针对 其 中 一 个 字符 串 的 结 
果 。 上 述 调 用 里 ， 输 入 字符 串 是 一 个 长 度 为 1 的 字符 向 量 ， 因 此 ， 消 数 返 回 一 个 长 度 为 1 的 列表 ， 对 它 调用 unlist () 以 全 解析。 下 面 把 上 述 结果 
和 同时 对 多 个 字符 串 进 行 调用 时 该 冰 数 的 表现 进行 比较 。 我 们 创建 一 个 包含 了 “text 


后 使 用 str_extract all () 函数 来 提取 符合 特 


“manipulation” 和 “basics” 几 个 字符 串 的 向 量 。 然 
符合 特征 “a” 的 所 有 实例 : 


R> out <- str extract all(c("text", "manipulation", "basics"), "a") 
R> out 


IPAR 


character (0) 


[[2]] 


[1] "a" "a" 


G31] 
ee Wat 


该 函数 返回 一 个 与 输入 向 量 长 度 (也 就 是 3) 相同 的 列表 ， 列 表 中 每 个 元 素 包 含 了 一 个 字符 串 的 结果 。 因 为 第 一 个 字符 串 里 没有 a， 所 以 第 
一 个 元 素 是 一 个 空 字符 向 量 。 第 二 个 字符 串 包 含 2 个 a， 第 三 个 字符 串 有 1 个 。 


默认 情况 下 ， 字 符 匹 配 是 区 分 字母 大 小 写 的 。 因 此 ， 正 则 表达 式 里 的 大 写字 母 和 小 写字 母 是 不 一 样 的 。 


R> str extract (example.obj, "small") 
[1] "small" 


在 上 例 的 字符 串 里 包含 small， 而 没有 SMALL。 


R> str extract (example.obj, "SMALL") 
[1] NA 


结果 ， 该 函数 提取 不 到 匹配 的 值 。 我 们 可 以 用 ignore.case () BRZE, Mme, |! 


R> str extract (example.obj, ignore .case ("SMALL") ) 
[1] "small" 


使 用 正则 表达 陈 并 不 局 限于 匹配 单词 。 一 个 字符 串 无 非 是 一 个 字符 的 序列 。 因 此 ， 我 们 也 可 以 匹配 字 根 : 


R> unlist (str extract all(example.obj, "en")) 
[1] " en" i en i TI en 1! ten" 


R> str extract (example.obj, "mall sent") 
[1] "mall sent" 


前 面 例子 的 字符 串 里 搜索 特征 en 会 返回 该 特征 的 每 个 实例 ， 也 融 是 在 单词 sentence 里 的 2 次 出 现 ， 而 该 单词 在 例子 对 象 里 有 2 个 。 有 时 候 我 
们 关心 的 并 不 仅仅 是 随便 在 字符 串 里 边 找 到 一 个 匹配 ， 而 是 对 在 字符 串 里 的 具体 位 置 感 兴 趣 。 我 们 可 以 对 正则 表达 陈 添 加 2 个 简单 的 符号 来 表示 
位 置 。 在 正则 表达 式 起 始 位 置 的 插入 符 O) 标记 了 字符 串 的 起 始点 ， 而 正则 表达 式 结尾 的 $ 标 记 的 是 字符 串 的 结尾 中 。 这 样 从 实际 例子 中 提取 
2 融会 返回 一 个 2。 


R> str extract (example.obj, "2") 
[1] non 


但 是 ， 从 字符 串 的 起 始 位 置 提取 2 没有 成 功 。 


R> str extract (example.obj, " 2") 
[1] NA 


相 类 似 ，$ 符 号 标记 的 是 字符 串 的 结尾 ， 那 么 : 


R> unlist (str extract all(example.obj, "sentence$") ) 

character (0) 
没有 能 返回 匹配 ， 因 为 作为 例子 的 字符 串 是 以 句号 字符 结尾 ， 而 不 是 sentence。 另 一 个 对 正则 表达 式 工具 箱 的 有 力 补充 是 管道 ， 它 显示 为 |。 该 
字符 被 视 为 OR 操 作 符 ， 因 此 函数 会 返回 对 于 管道 前 后 表达 式 的 所 有 匹配 。 

R> unlist(str extract all(example.obj, "tiny|sentence") ) 

[1] "sentence" "tiny" "sentence" 


8.1.2 ”正则 表达 陈 的 广义 化 


到 目前 为 止 我 们 只 是 进行 了 固定 表达 式 的 匹配 。 但 正则 表达 式 的 威力 来 源 于 能 够 编写 灵活 及 广义 化 的 查询 条 件 。 其 中 最 为 广义 化 的 是 句 
5 (.) 。 它 可 以 匹配 任意 字符 。 


R> str _ extract (example.obj, "sm.11") 
LL] “amali” 


在 正则 表达 式 中 ， 另 一 个 强大 的 广义 化 是 字符 类 (character class) ， 它 被 包 带 在 中 括号 内 部 中 。 一 个 字符 类 的 含义 是 任何 中 括号 里 的 字符 
都 会 被 匹配 。 


R> str extract (example.obj, "sm[abc]11") 
LLI “amali” 


上 述 代码 提取 出 单词 small， 因 为 字符 a 是 字符 类 [abd 的 一 部 分 。 还 有 另 一 种 方法 也 可 以 利用 字符 范围 来 指定 字符 类 的 元 素 ， 它 使 用 -。 


R> str extract (example.obj, "sm[a-p]11") 
[1] "small" 


在 这 种 情况 下 ， 任 何 从 a 到 p 的 字符 都 是 合法 的 匹配 。 除 了 字母 和 数字 字符 ， 也 可 以 在 正则 表达 式 里 包括 标点 和 空格 。 相 类 似 ， 它 们 也 可 以 
放 在 字符 类 里 。 例 如 ， 字 符 类 [uvw.] 能 匹配 字母 u、v、w， 也 能 匹配 句号 和 空格 。 把 这 个 字符 类 运用 到 我 们 的 实际 例子 ( 即 “1.A small 
sentence.-2.Another tiny sentence.” ) 里 ， 就 得 到 其 中 的 句号 和 空格 ,但 没有 u、v 或 Ww， 因 为 它们 在 对 象 里 一 个 也 没有 。 注 意 ， 句 号 字符 在 
字符 类 里 就 没有 了 特殊 含义 。 在 一 个 字符 类 中 ， 一 个 句号 (.) 只 会 匹配 一 个 句号 (.) 。 


R> unlist (str extract all(example.obj, "[uvw. ]")) 


[1] W - I W I 1 I " I " z Il I W I 1 TT . TI I " TT " W Ê" Il Ee TT 


到 目前 为 止 ， 我 们 已 经 手工 指定 了 字符 类 。 不 过 ,需要 在 文本 内 部 进行 匹配 的 字符 集合 里 ， 有 一 些 是 典型 的 。 例 如 ， 我 们 经 常 需 要 在 给 定 
文本 里 找到 所 有 字母 字符 。 完 成 这 项 工作 可 以 利用 字符 类 [a-z A-Z]， 也 就是 从 a 到 z 和 A 到 2 的 所 有 字母 。 为 了 方便 起 见 ， 在 R 里 已 经 预定 义 了 一 


些 常用 的 字符 类 。 表 8-1 提 供 了 忆 选 的 一 些 预定 义 字符 类 的 概况 。 


表 8-1 在 R 正 则 表达 式 里 预定 义 的 字符 类 选集 





[:digit:] 数字 : 0123456789 

[: lower: ] 小 写字 苹 a-z 

[ :upper:] 大 与 字母 A-Z 

[:alpha:] EEF FF a-z A-Z 

[:alnum:] 效 字 和 字母 字符 

[:punct:] 标点 符号 : . 3 等 

[:graph:] 图 形 字 符 : [:alnum:] 和 [:punct:] 
[:blank:] 空格 字符 : 空格 和 人 制 表 

[:space:] 空 字符 : 空格 、 制 表 、 换 行 和 其 他 空 字 符 
[:print:] 可 打印 字 人 符 : [:alnum:][:punct:] 和 [:space:] 


来 源 : A A http://stat.ethz.ch/R-manual/R-patched/library/base/html/regex.html o 


为 了 利用 预定 义 的 类 ， 我 们 必须 把 它们 包 在 方 括号 里 。 否 则 ，R 融 会 认为 我 们 指定 了 一 个 由 其 中 的 字符 组 成 的 字符 类 。 比 如 ， 提 取 例 子 里 的 
所 有 标点 符号 。 正 确 的 表达 式 是 : 


R> unlist (str extract all(example.obj, "[[:punct:]]")) 


[1] "on "on A | | "ou "on 


注意 它 和 下 面 的 表达 式 有 何不 同 : 


R> unlist (str extract all(example.obj, "[:punct:]")) 
[1] "n" "en" tin" Wot "n" en wee In" "n" "en "n" ton 


在 我 们 的 实际 例子 中 ， 如 果 不 用 方 括号 包 起 字符 类 ， 返 回 的 是 : 、p、u、n、c 和 t 所 有 这 些 字母 。 注 意 ， 重 复 的 “: ”并 不 会 扰乱 R。 在 一 
个 字符 类 中 放 入 元 余 的 字符 也 只 会 让 每 个 实例 匹配 一 次 。 


R> unlist (str extract all(example.obj, "[AAAAAA]") ) 
Be "A" "A" 


此 外 ， 昌 然 [A-Z a-z] 几 乎 等 同 于 [: alpha: ]， 但 前 者 会 忽略 特殊 字符 ， 所 以 : 


Rs str extract ("François Hollande", "Fran[a-z]ois") 
[1] NA 


“会 返回 匹配 ， 而 : 


R> str extract ("François Hollande", "Fran[[:alpha:]]ois") 
[1] "Frangois" 


束 可 以 。 预 定义 字符 类 会 覆盖 我 们 可 能 需要 进行 的 很 多 请 求 ， 但 是 在 它们 覆盖 不 到 的 情况 下 ， 我 们 甚至 可 以 通过 增加 元 素 的 方法 扩展 一 个 预定 


义 的 字符 类 


R> unlist (str extract all(example.obj, "[[:punct:]ABC]") ) 
[1] il , " "A" Ê" . i n= i " . 1" "A" I , " 


在 这 个 情况 下 ， 我 们 要 提取 的 是 所 有 标点 符号 以 及 大 写字 母 A、B 和 C。 顺 便 说 一 句 ， 利 用 我 们 之 前 介绍 过 的 范围 操作 符 ， 这 个 扩展 的 字符 
类 可 以 重 写 为 [[: punct: ]A-C]。 字 符 类 的 另 一 种 巧妙 用 法 是 通过 在 字符 类 起 始 位 置 加 入 上 箭头 (人 ^) 来 反 转 它们 的 含义 。 这 样 ， 函 数 融会 匹配 
除了 该 字符 类 内 容 之 外 的 所 有 内 容 。 


R> unlist (str extract all(example.obj, "[ [:alnum:]]")) 
[1] i " Ti " Ti 11 Ti 11 TI " I Ti "Hn " Ti 11 T 11 " i " " i Ti 11 


相 类 似 ， 在 上 例 中 所 有 非 字 母 数字 的 字符 得 到 的 是 所 有 空格 和 标点 符号 。 我 们 已 经 了 解 了 ， 人 在 正则 表达 式 里 每 个 数字 和 字符 会 匹配 其 自 
身 ， 句 号 匹配 任何 字符 ， 字 符 类 则 会 匹配 其 组 成 字符 集 的 任何 一 个 。 不 过 ， 我 们 还 缺少 了 在 表达 式 里 使 用 量化 方法 的 选项 。 例 如 ， 我 们 希望 从 
实际 例子 中 提取 一 个 序列 ， 以 一 个 s 开 头 ， 以 一 个 | 结 属 ， 中 间 是 任何 3 个 字母 字符 。 利 用 迄今 为 止 学 习 了 的 工具 ， 我 们 唯一 的 选择 是 编写 如 下 的 
表达 式 : s[[: alpha: ]][[: alpha: ]][[: alpha: ]]l。 回 想 一 下 ， 在 这 里 我 们 不 能 用 .字符 ， 因 为 这 样 会 匹配 任何 字符 ,包括 空格 和 标点 。 


R> str extract (example.obj, "s[[:alpha:]] [[:alpha:]] [[:alpha:]]1") 
[1] "small" 


依 此 方法 写 正则 表达 式 ， 不 仪 会 很 快 让 它 难 以 阅读 和 理解 ， 而 且 编 写 效 率 低 并 容易 出 错 。 为 了 避免 这 些 问 题 ， 我 们 可 以 加 入 字符 的 量化 
符 。 例 如 ， 在 字符 后 面 { 里 的 数字 表示 对 该 字符 固定 次 数 的 重复 。 使 用 这 个 量化 符 ， 像 aaaa 这 样 的 序列 可 以 简化 为 af{4J。 在 我 们 的 例子 里 ， 融 可 
以 这 样 编写 : 


R> str extract (example.obj, "s[[:alpha:]]{3}1") 
[1] "small" 


这 里 的 [[: alpha: ]]{3} 会 匹配 任意 3 个 字母 字符 。 表 8-2 提 供 了 R 里 可 用 的 量化 符 的 概况 。 一 个 常见 的 量化 操作 符 是 加 号 (+) ， 它 表示 之 前 的 条 
目 必须 匹配 1 次 或 多 次 。 使 用 .代表 任意 字符 ， 于 是 我 们 束 可 以 编写 下 面 的 表达 式 ， 来 提取 由 A 开头 、sentence 结 尾 、 中 间 有 任何 数量 (大 于 0) 
字符 的 一 个 序列 。 


表 8-2 R 正 则 表达 式 里 的 量化 符 


? 前 面 的 元 素 是 可 选 的 ， 并 且 最 多 匹配 一 次 


* 前 面 的 元 素 会 被 匹配 0 次 或 多 次 

1 前 面 的 元 素 会 被 匹配 1 次 或 多 次 

{n} AN TT A IC FR SS ERE PRD A n 次 

{n, } HU TT AY 90 ae Se PVE n 次 或 多 于 n 次 

{n, m} AMAIR Se PVE i Dn YR, (A ANE m VK 


来 源 : #44 A http: //stat.ethz.ch/R-manual/R-patched/library /base/html/regex.html o 


R> str extract (example.obj, "A.+sentence") 
[1] "A small sentence. - 2. Another tiny sentence" 


R 应 用 的 是 仿 梦 量化 模式 。 这 意味 着 程序 会 尽量 提取 能 匹配 前 面 字 符 的 最 大 合法 序列 。 因 为 .匹配 的 是 任何 字符 ， 所 以 上 面 的 函数 会 返回 在 
sentence 序 列 之 前 由 任何 字符 构成 的 最 大 序列 。 你 可 以 通过 给 表达 式 加 入 一 个 ? 来 改变 这 种 行为 ， 表 达 只 想 找 到 在 sentence 序 列 之 前 由 任意 字 
竺 构成 的 最 短 序列 。? 的 含义 是 它 之 前 的 条 目 是 可 选 的 ， 最 多 能 匹配 一 次 (请 再 参见 表 8-2) 。 


R> str extract (example.obj, "A.+?sentence") 
[1] "A small sentence" 


我 们 并 不 局 限于 对 单个 字符 应 用 量化 符 。 为 了 对 一 组 字符 应 用 量化 符 ， 我 们 要 把 它们 放 和 在 括号 里 。 


R> unlist(str extract all(example.obj, "(.en){1,5}")) 
[1] "senten" "senten" 


在 这 种 情况 下 ， 我 们 要 求 函 数 返 回 一 个 字符 序列 ， 里 面 的 第 一 个 字符 可 以 是 任意 字符 ， 第 二 个 和 第 三 个 必须 是 e 和 mn。 我 们 要 求 函 数 给 出 所 
有 该 序列 出 现 至 少 1 次 最 多 5 次 的 所 有 实例 。 这 样 ， 符 合 该 请 求 的 最 长 合法 序列 可 以 是 3x5 = 15 个 字符 长 度 ， 里 面 ( 按 3 个 字符 一 组 划分 的 组 里 ) 
的 所 有 第 二 个 和 第 三 个 字符 都 是 一 个 e 和 一 个 n。 在 下 面 的 代码 片段 里 去 掉 了 括号 。 这 样 ， 函 数 匹 配 的 所 有 序列 残 是 以 任意 字符 开头 ， 到 e 和 mn 结 
尾 ， 其 中 mn 必须 出 现 最 少 1 次 最 多 ?5 次。 考虑 一 下 前 面 的 结果 和 下 面 的 会 有 何不 同 : 


R> unlist(str extract all(example.obj, Y yeni Sy") ) 
[1] " sen" "ten" "sen" "ten" 


到 目前 为 止 ， 我 们 已 经 遇 到 了 若干 在 正则 表达 式 里 有 特殊 含义 的 字符 。 负 它们 被 称 为 元 字符 (metacharacter) 。 为 了 准确 对 它们 进行 匹 
配 ， 我 们 要 给 它们 前 面 如 上 两 个 斜 本 。 为 了 从 实际 例子 中 准确 提取 所 有 句号 字符 ， 可 以 编写 : 


R> unlist (str extract all(example.obj, dh rae 8) 
ea =. 0 "on oon "on 


在 句号 之 前 的 双 和 斜 杠 会 被 解释 为 单个 斜 杠 字 符 。 在 正则 表达 式 里 输入 单个 科 杠 会 被 解释 为 引入 一 个 转 义 序列 。 这 些 转 义 序列 中 有 好 几 个 在 
网 络 抓 取 任务 中 是 很 常见 的 ， 你 应 该 对 它们 比较 熟悉 了 。 最 常见 的 是 \n 和 \t， 它 们 的 含义 是 换行 和 tab。 例 如 ，“a\n\n\na” 会 解析 为 a、 三 个 
换行 和 另 一 个 a。 如 果 希 望 整个 正则 表达 式 被 准确 解释 ， 我 们 就 需要 一 个 比 给 每 个 元 字符 前 面 加 上 和 斜 杠 更 好 的 做 法 。 我 们 可 以 把 表达 式 包 裹 在 
fixed () 里 ， 让 元 字符 可 以 被 准确 地 解释 。 


R> unlist (str extract all(example.obj, fixed("."))) 


[1] "on "on "on "on 


大 部 分 元 字符 放 在 一 个 字符 类 内 部 的 时 候 就 没有 特殊 售 义 了 。 例 如 ， 在 一 个 字符 类 里 的 句号 只 会 匹配 一 个 句号 字符 。 这 个 规则 仅 有 的 2 个 例 
外 是 上 箭头 (^) 和 减 号 (-) 。 前 者 放 在 一 个 字符 类 的 起 始 位 置 会 逆转 该 字符 类 内 容 的 匹配 结果 。 后 者 可 以 在 字符 类 内 部 用 来 质 述 范围。 这 个 
特性 也 可 以 通过 把 - 放 在 字符 类 的 起 始 或 结尾 处 来 做 出 改变 。 在 这 种 情况 下 ， 它 会 被 解释 为 减 号 本 身 。 


这 里 ,我 们 要 介绍 的 正则 表达 式 的 最 后 一 个 方面 是 若干 简化 形式 ， 它 们 被 分 配给 几 个 特定 的 字符 类 。 表 8-3 提 供 了 可 用 简化 形式 的 概况 。 


表 8-3 ”部 分 有 特殊 含义 的 符号 


\w 单词 字符 : [[:alnum:] ] 
- 非 单 词 字 符 : [^[:alnum:]_] 
衬 字 人 竺 : [[:blank:]] 

一 非 空 字符 : [^[:blank:]] 
数字 : [[:digit:]] 

非 效 字 : [^[:digit:]] 

单词 的 边界 

非 单词 边界 

单词 的 起 始 

单词 的 结尾 


如 \w 字 符 。 该 符号 能 在 我 们 的 实际 例子 里 匹配 任何 单词 字符 ， 所 以 : 


R> unlist (str extract all (example.obj, "\\w+")) 
[1] W 下 Ti "A" " small I 11 sentence Ti Il 2 Ti "Another 11 
7] “Sing "Sentence" 


会 提取 出 每 个 由 空格 或 标点 分 开 的 单词 。 注 意 ，\W 等 价 于 [[: alnum: ] ]， 因 此 前 面 的 数字 会 被 解释 为 完整 的 单词 。 再 进一步 考虑 对 于 单词 边 
界 有 用 的 简化 形式 \>、\< 和 和 \b。 利 用 它们 ， 我 们 可 以 更 准确 地 指定 匹配 的 位 置 。 假 如 要 在 我 们 的 实际 例子 中 准确 匹配 所 有 处 于 单词 结尾 位 置 的 
e。 为 了 实现 这 个 效果 ， 可 以 运用 下 面 两 个 表达 式 之 一 : 


R> unlist (str extract all (example.obj, "e\\>")) 
[1] tat tall 
R> unlist (str extract all(example.obj, "e\\b") ) 
[1] wat tall 


这 个 查询 从 单词 sentence 的 边界 提取 出 了 2 个 e。 最 后 ， 我 们 甚至 可 以 对 之 前 已 经 在 正则 表达 式 里 匹配 过 的 一 个 序列 进行 匹配 。 这 叫 作 反 向 
引用 (backreferencing) 。 比 如 ， 我 们 要 查找 实际 例子 里 的 第 一 个 字母 ， 并 且 不 管 这 个 字母 是 什么 都 需要 继续 匹配 那 一 个 字母 出 现 的 实例 。 要 
做 到 这 一 点 ， 我 们 把 那个 未 知 的 元 素 包 在 括号 里 ， 如 (i alpha: ]]) ， 并 用 \1 来 引用 它 。D| 


R> str extract (example.obj, "([{[:alpha:]]) .+?\\1") 
[1] "A small sentence. - 2. A" 


在 这 个 例子 里 ， 第 一 个 字母 是 A。 阔 数 返 回 了 这 个 匹配 和 后 续 的 字符 ， 直 到 下 一 个 A 的 实例 。 要 把 例子 弄 得 更 复杂 一 些 ,我 们 现在 可 以 查找 
一 个 不 台子 母 a 的 小 写 单 词 ， 然 后 往 后 直到 这 个 单词 第 二 次 出 现 。 


R> str extract (example.obj, "(\\<[b-z]+\\>) .+?\\1") 
[1] "sentence. - 2. Another tiny sentence" 


我 们 使 用 的 表达 式 是 (\\<[b-z]+\\>) .+? \\1。 首 先 ， 考 虑 [b-z]+ 这 部 分 。 这 个 表达 式 会 匹配 所 有 长 度 大 于 或 等 于 1 且 不 包含 字母 a 的 小 写 
字母 序列 。 在 我 们 的 实际 例子 里 ， 前 面 的 1 和 A 都 不 满足 这 个 要 求 。 第 一 个 匹配 该 表达 式 的 子 字符 串 应 该 是 单词 small 里 最 后 两 个 |。 别 忘 了 7，+ 量 
化 符 是 贪 楚 的 。 因 此 ， 它 会 尝试 抓 取 最 长 的 合法 序列 ， 也 就 是 | 而 不 是 |。[o 这 并 不 是 我 们 想 要 的 东西 。 相 反 ， 我 们 要 找 的 是 一 个 小 写 且 不 包含 字 
母 a 的 完整 单词 。 因 此 ， 为 了 排除 这 个 结果 ， 我 们 向 表达 式 里 加 入 \\< 和 \\> 来 表示 一 个 单词 的 起 始 和 结尾 。 这 个 表达 式 被 整个 包 进 括号 里 ， 以 

便 进 一 步 在 后 面 的 表达 式 里 引用 。 这 个 表达 式 匹 配 上 字符 串 的 第 一 部 分 是 sentence 这 个 单词 。 然 后 ， 我 们 利用 \\1 在 字符 串 里 查找 这 个 子 串 的 下 


一 次 出 现 ， 不 用 管 中 间 出 现 的 是 什么 (.+? ) 。 这 也 不 是 太 容 易 吧 ， 对 不 对 ? M 


8.1.3 ”重新 分 析 入 门 例子 


既然 我 们 已 经 接触 了 正则 表达 式 的 主要 成 分 ， 现 在 束 可 以 回 到 入 门 例子 ， 整 理 《 举 普 森 一 家 》 的 电话 目录 。 原 始 数 据 如 下 : 


R> raw.data 

[1] "555-1239Moe Szyslak(636) 555-0113Burns, C. Montgomery555-6542Rev. 
Timothy Lovejoy555 8904Ned Flanders636-555-3226Simpson, Homer5553642Dr. 
Julius Hibbert" 


为 了 提取 出 名 字 ， 可 以 使 用 正则 表达 陈 [[: alpha: ].，]{2，}。 让 我 们 来 一 步 一 步 地 看 一 下 它 。 在 它 的 核心 部 分 ， 我 们 使 用 了 字符 类 [: 
alpha: ]， 它 表示 要 查找 字母 字符 。 除 了 这 些 字 符 ， 名 字 也 可 能 会 包含 句号 、 逗 号 和 空格 ,我 们 需要 把 它们 也 加 到 字符 类 里 去 匹配 [[: 
alpha: ].，]。 最 后 ， 加 入 量化 符 来 限定 字符 类 的 内 容 必 须 能 匹配 最 少 2 次 ， 才 能 成 为 合法 的 匹配 。 如 果 不 加 入 量化 符 ， 融 会 把 每 个 能 匹配 该 字 
符 类 的 单字 符 都 提取 出 来 。 此 外 ， 必 须 指 定 只 要 长 度 至 少 为 2 的 匹配 ， 否 则 该 表达 式 会 返回 某 些 电话 号 码 之 间 的 空格 。 


R> name <- unlist(str extract all(raw.data, "[[:alpha:]., ]{2,}")) 


R> name 
[1] "Moe Szyslak" "Burns, C. Montgomery" "Rev. Timothy Lovejoy" 
[4] "Ned Flanders" "Simpson, Homer" "Dr. Julius Hibbert" 


我 们 还 需要 从 字符 串 中 提取 所 有 的 电话 号 码 。 为 了 符合 不 同 的 电话 号 码 格 式 ， 我 们 用 于 这 个 任务 的 正则 表达 式 会 更 复杂 。 让 我 们 分 析 一 下 
电话 号 码 组 成 的 元 素 ， 它 们 大 部 分 是 数字 (\\d) 。 主 要 的 困难 来 目 电话 号 码 的 格式 并 不 统一 的 这 个 现实 情况 。 比 如 ， 有 些 号 码 包含 了 空格 、 破 
折 号 、 括 号 ， 或 者 前 面 没 有 区 位 码 。 


运用 学 到 的 正则 表达 式 知 识 ， 现 在 我 们 能 够 分 解 正则 表达 式 了 。 它 的 完整 形式 是 \ (? (\\d{3}) ? WD ?” (OD ”Ndf3} (-|) ? d 
让 我 们 来 分 析 一 下 这 个 表达 式 。 它 的 第 一 部 分 是 \\ (? (\\d{3}) ? \\) ? 。 在 中 间 位 置 看 到 了 \\d{3}， 我 们 用 它 来 采集 3 位 数字 的 区 域 码 。 因 为 
区 位 码 并 不 是 在 每 个 电话 号 码 里 都 有 ， 所 以 我 们 把 这 段 表 达 式 包 在 两 个 括号 里 面 ， 再 加 上 一 个 问号 ， 表 示 里 面 的 \\d{3} 这 部 分 表达 式 是 可 忽略 
的 。 在 这 段 核心 元 素 的 前 后 我 们 加 上 了 \\ (和 \\) ， 引 入 两 个 括号 符 把 3 位 数字 的 区 域 码 包 起 来 。 有 后 面 的 ? ， 如 果 电话 号 码 的 这 个 位 置 没有 括 
号 ， 这 部 分 括号 符 也 是 可 以 忽略 的 。 然 后 ， 我 们 的 正则 表达 式 包 含 了 表达 式 (一 一 |) ? 。 它 的 含义 是 需要 匹配 的 是 一 个 破 折 号 或 空格 ,不 过 ， 
同样 ， 我 们 把 整个 表达 式 包 在 两 个 括号 里 面 ， 再 加 上 一 个 问号 ， 表 示 里 面 的 这 部 分 表达 式 也 是 可 忽略 的 。 然 后 这 些 元 素 束 直接 重复 一 遍 。 具 体 
襄 残 是 我 们 要 接着 寻找 3 个 数字 ， 加 上 另 一 个 在 电话 号 码 中 可 有 可 无 的 破 折 号 或 空格 ， 以 及 另外 4 个 数字 。 把 这 个 表达 了 式 运 用 到 我 们 的 模拟 例子 


里 融会 得 到 . 


R> phone <- unlist(str extract _all(raw.data, "\\(?(\\d{3})?\\)?(-| )?\\d 


{3}(-| )?\\d{4}")) 


R> Phone 
[1] "555-1239" "(636) 555-0113" "555-6542" "555 8904" 
[5] "636-555-3226" "5553642" 


在 后 续 章 节 展 开 对 正则 表达 式 如 何 实际 运用 的 讨论 之 前 ， 我 们 想 通过 一 些 对 正则 表达 式 的 总 体 观察 来 总 结 这 部 分 内 容 。 首 先 ， 关 于 如 何 把 
正则 表达 式 广义 化 ， 以 满足 字符 串 操作 需求 方面 ， 哩 然 我 们 提供 了 一 个 比较 全 面 的 描述 ， 但 还 有 一 些 方面 是 在 本 节 没有 覆盖 到 的 。 具 体 说 ， 在 R 
里 实现 的 有 两 种 正则 表达 式 风 格 : 扩展 基本 正则 表达 式 和 Perl 正 则 表达 式 。 在 上 面 的 例子 里 ， 我 们 完全 是 依赖 于 前 者 的 。 虽 然 Perl 正 则 表达 式 提 
供 了 一 些 额外 的 特性 ， 但 是 大 部 分 任务 都 能 通过 默认 风格 ， 即 扩展 基本 型 来 完成 。 9 


虽然 学 习 Perl 正 则 表达 式 也 没有 什么 不 好 ， 但 是 建议 你 及 用 默认 类 型 ， 这 是 因为 : 第 一 ， 脑 子 里 记 着 两 种 风格 是 比较 容易 景 的 ， 特 别 是 当 
你 第 一 次 接触 正则 表达 式 的 时 候 。 第 二 ， 大 部 分 任务 都 可 以 通过 默认 实现 的 正则 表达 式 来 完成 。 虽 然 有 时 候 这 意味 着 要 用 2 步 而 不 是 1 步 解决 一 
个 问题 ， 但 很 多 情况 下 这 种 方式 甚至 是 更 优 的 。 我 们 认为 ， 非 要 摘出 只 用 一 行 完 成 所有 字符 串 操 作 需求 的 “黄金 表达 式 ” 其 实 是 很 差劲 的 做 
法 。 为 了 可 读 性 ， 大 家 应 该 尝试 限制 在 一 行 代码 里 执行 步骤 的 数量 。 这 样 能 简化 出 错 后 的 检查 工作 ， 而 且 有 助 于 在 后 期 用 到 它 的 时 候 搞 清楚 你 
的 代码 在 做 什么 。 牢 记 这 条 规则 ， 对 诸如 反 向 引用 之 类 错 绪 复杂 的 概念 的 使 用 其 实 是 有 争议 的 。 虽 然 可 能 会 有 一 些 情况 下 它们 必 不 可 少 ,但 是 
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现在 已 经 准备 好 了 基础 各 识 ， 可 以 来 看 看 我 们 在 实际 中 利用 正则 表达 式 可 以 做 到 哪些 事情 了 。 


[1] 要 了 解 R 和 sttingr 字 符 串 操作 函数 的 比较 ， 请 参见 表 8-5。 

[2] 这 种 用 法 是 stringt 组 件 的 特性 。 要 让 基础 函数 进行 区 分 字母 大 小 写 的 匹配 ， 需 要 设置 ignote.case 参 数 为 TRUE。 顺 便 提 一 句 ， 如 果 你 以 前 从 来 没 
有 用 过 stringt 组 件 ， 那 我 们 要 告诉 你 ，tolower0 和 toupper0 会 把 你 的 字符 串 转 化 为 小 写 / 大 写 。 

[3] 注意 ， 在 字符 类 内 部 的 插入 符 (^) 有 不 同 的 含义 。 

A 我 们 遇 到 的 有 .、|、( )、[ Js fn fs ^、$、*、+、? 和 -。 

[5] 表达 式 里 最 多 可 以 有 9 个 反 向 引用 ， 标 记 为 \1、\2 等 。 

[6] Pb- 耻 + 匹配 的 结果 应 该 是 sm 而 不 是 ]。 如 果 你 手头 没有 安装 好 R 环 境 ， 也 可 以 在 浏览 器 的 控制 台 利 用 如 下 的 JavaSctipt 代 码 进 行 验证 : var str="1.A 


small sentence.-2.Another tiny sentence.";var pattern="[b-z]+";var result=str.match(pattern);alett(result); 执 行 这 段 代码 后 ， 弹 出 消息 的 内 容 是 sm 而 不 是 





Ile 译 者 注 

[7] 在 译 者 用 的 版 本 里 (R 3.2.1 GUI 1.66 Mavericks build(6956)) ， 上 述 的 正则 表达 式 “(\\<[b-z]+\\>).+?\\1" 返 回 的 是 NA， 因 为 \\< 和 \\> 不 能 正 
确 地 标记 单词 的 开头 和 结尾 。 把 它们 替换 为 两 个 \\b 之 后 ， 才 得 到 正确 结果 。 译 者 注 

[3] 如 果 你 有 意 使 用 Ped 正 则 表达 式 ， 只 要 把 表达 式 用 perl0 包 起 来 就 行 了 。 这 种 用 法 是 sttingt 组 件 的 一 个 惯例 。 对 于 基础 函数 里 的 Perl 正 则 表达 


式 ， 可 以 设置 petl 参 数 为 TRUE。 要 了 解 Petl 正 则 表达 式 里 的 更 多 功能 ， 请 参见 http://www.pctre.org/。 





8.2 RERUN 


8.2.1 stringr 组 件 


在 本 节 我 们 要 讲解 依赖 正则 表达 式 的 一 些 可 用 函数 。 我 们 来 看 一 下 在 stringr 组 件 里 实现 的 一 些 函 数 。 在 8.1 节 里 我 们 已 经 用 到 的 两 个 函数 分 
别 是 str extract () 和 str extract all () 。 它 们 会 提取 出 正则 表达 式 和 字符 串 匹 配 的 第 一 个 /所 有 实例 。 重 述 一 下 ，str_ extract () 会 提取 出 匹 
配 正 则 表达 式 的 第 一 个 实例 : 


R> str extract (example.obj, "tiny") 
[1] "tiny" 
而 str_extract_all () 会 提取 出 所 有 的 匹配 实例 。 


R> str extract all(example.obj, "[[:digit:]]") 
LLLI] 
pA "q1" won 


我 们 已 经 指出 过 ，str xxxx () 和 str xxxx all () 两 种 函数 的 输出 是 有 所 不 同 的 。 在 前 一 种 情况 下 会 返回 一 个 字符 向 量 ， 而 后 者 会 返回 一 个 
列表 。 表 8-4 给 出 了 本 章 要 介绍 的 不 同 尔 数 的 概况 。 第 二 列 对 该 国 数 的 用 途 进 行 了 简短 拉 述 ， 第 三 列 则 说 明了 返回 值 的 格式 。 如 果 我 们 感 兴趣 的 
是 匹配 点 在 给 定 字符 串 中 的 位 置 而 不 是 提取 结果 ， 就 可 以 使 用 轴 数 str locate () 或 str locate all () 。 


表 8-4 ”本章 用 到 的 stringt 组 件 里 的 函数 





bay 数 输 出 

str extract ( ) 可 量 
str_extract_all() | 提取 匹配 特征 的 所 有 字符 串 字符 向 量 的 列表 

str locate () 返回 第 一 个 特征 匹配 的 位 置 起 始 /结尾 位 置 的 矩阵 
str_locate_all() | 返回 所 有 特征 匹配 的 位 置 定 阵 的 列表 


蔡 换 第 一 个 特征 的 匹配 字符 向 量 
蔡 换 所 有 特征 的 匹配 字符 向 量 
在 特征 匹配 的 位 置 拆 分 字符 串 字符 向 量 的 列表 
在 特征 匹配 的 位 置 把 字符 串 拆 分 为 固定 块 数 | 字符 向 量 的 矩阵 
在 字符 串 里 检测 特征 是 否 存 在 布尔 癌 量 
在 字符 串 里 检测 特征 出 现 的 次 数 数字 问 量 
根据 位 置 提 取 字 符 串 字符 向 量 
复制 字符 串 字符 向 量 


返回 字符 串 的 长 度 


使 用 正则 表 | str_replace () 

IATL PA BX str replace all() 
Str split () 
str split fixed() 
str detect () 
str count () 
str_sub() 
str dup () 
str length() 
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R> str _ locate(example.obj, "tiny") 
start end 
[1,] 35 38 


该 函数 输出 一 个 和 矩阵， 其 中 是 第 一 个 匹配 实例 的 起 始 和 结尾 位 置 ， 在 本 例 中 分 别 是 示例 字符 串 的 第 35~ 38 个 字符 。 我 们 可 以 通过 
str sub () 函数 提取 一 个 子 字符 串 ， 把 字符 串 里 的 位 置信 息 利用 起 来 。 


R> str sub(example.obj, start = 35, end = 38) 
[1] hs b 5 le 


这 里 提取 了 第 35~38 个 字符 ,我 们 知道 它 是 单词 tiny。 可 能 还 有 一 种 更 常见 的 任务 ， 束 是 蔡 换 给 定 的 子 字 符 串 。 照 例 ， 我 们 可 以 利用 分 配 操 
(ER <- RERE. 


W 


R> str sub(example.obj, 
R> example.obj 
[1] "1. A small sentence. - 2. Another huge sentence." 


5, 38) <- "huge" 


更 通用 的 著 换 方法 是 使 用 str_replace () 和 str replace all () 。 


R> str replace(example.obj, pattern = "huge", replacement = "giant") 
[1] "1. A small sentence. - 2. Another giant sentence." 


我 们 也 会 需要 把 一 个 字符 串 分 拆 为 几 个 小 字符 串 。 在 最 简单 的 情况 下 ， 我 们 可 以 直接 定义 分 拆 符 ， 比 如 ， 在 每 个 破 折 号 处 分 拆 。 


R> unlist(str_split(example.obj, "-")) 
[1] "1. A small sentence. " " 2. Another huge sentence." 


我 们 也 可 以 指定 字符 串 分 拆 成 固定 数量 的 小 字符 串 。 如 果 我 们 需要 在 每 个 空格 位 置 分 拆字 符 串 ， 但 不 希望 分 拆 的 结果 多 于 5 个 ， 那 么 就 可 以 
这 样 编写 语句 : 


R> as.character (str split fixed(example.obj, "[[:blank:]]", 5)) 


[1] "1, " "A" 
[3] "small" "sentence." 
[5] "- 2. Another huge sentence." 


到 目前 为 止 ， 我 们 讨论 过 的 所 有 例子 都 假设 是 针对 单个 字符 串 对 象 的 。 回 想 一 下 ， 我 们 的 实际 例子 是 由 2 个 句子 组 成 的 ， 但 都 在 一 个 字符 串 


R> example.obj 
[1] "1. A small sentence. - 2. Another huge sentence." 


我 们 可 以 把 这 些 函 数 同时 用 在 多 个 字符 串 上 。 比 如 ， 把 一 个 由 多 个 字符 串 组 成 的 字符 向 量 作为 第 二 个 实际 例子 : 
R> char.vec <- c("this", "and this", "and that") 


我 们 能 做 的 第 一 件 事 是 检查 某 个 特征 在 该 字符 向 量 里 的 出 现 情况 。 假 如 我 们 想 了 解 this 这 个 特征 是 否 在 给 定向 量 的 元 素 里 出 现 。 我 们 用 来 做 


这 件 事 的 为 数 是 : str detect () 。 


R> str detect(char.vec, "this") 
[1] TRUE TRUE FALSE 


此 外 ,我们 还 可 能 想 知 道 这 个 单词 在 给 定向 量 的 各 个 元 素 里 出 现 的 频率 : 


R> str count (char.vec, "this") 
ad ia: a. © 


或 者 在 每 个 不 同 元 素 里 共有 多 少 个 单词 。 


R> str count (char.vec, "\\w+") 
it oh 这 2 


我 们 还 可 以 复制 字符 串 : 
R> dup.obj <- str dup(char.vec, 3) 


R> dup.obj 
[1] "thisthisthis" "and thisand thisand this" 


[3] "and thatand thatand that" 


或 者 对 给 定 字 符 串 里 字符 的 数量 进行 计数 。 


R> length.char.vec <- str_length(char.vec) 
R> length.char.vec 
[1] 4 8 8 


网 络 数据 操作 的 两 个 重要 函数 是 str_ pad () 和 str trim () 。 它 们 的 用 处 是 在 字符 串 边界 添加 字符 或 去 除 空格 。 


R> char.vec <- str pad(char.vec, width = max(length.char.vec), 


side _ "both" i pad _ " 1 ) 
R> char.vec 
fa)" thie * "tand this" “and that" 


在 这 个 例子 里 ,我 们 给 较 短 的 字符 串 两 端 加 入 等 量 的 空格 ， 让 每 个 字符 串 都 有 相同 的 长 度 。 反 向 的 操作 是 用 str_trim () 来 执行 的 ， 它 会 从 
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R> char.vec <- str trim(char.vec) 
R> char.vec 
[1] "this" "and this" "and that" 


最 后 ， 我 们 可 以 利用 str e () BROS RUT BEE, 


R> cat(str_c(char.vec, collapse = aha) 
this 

and this 

and that 


这 里 ， 我 们 把 字符 向 量 里 的 3 个 字符 串 串 接 成 一 个 。 我 们 加 入 了 换行 符 (\n) 并 利用 cat () 函数 产生 结果 ， 该 函数 会 把 一 个 换行 符 解 释 为 
一 个 新 行 。 除 了 串 接 一 个 向 量 里 的 内 容 ， 我 们 还 可 以 利用 str_ c () BRAT ANA. 


R> str_c("text", "manipulation", sep = " ") 
[1] "text manipulation" 


如 果 一 个 向 量 的 长 度 是 另 一 个 的 倍数 ， 该 函数 会 目 动 重复 使 用 较 短 的 那 一 个 。 


R> str_c("text", c("manipulation", "basics"), sep = " ") 
[1] "text manipulation" "text basics" 


贯穿 本 书 的 内 容 ， 我 们 会 经 常用 stringr 组 件 来 进行 字符 串 处理 。 不 过 ，R 的 基础 环境 也 提供 了 字符 串 处 理 功能 。 我 们 上 发 现 基础 函数 的 一 致 性 
更 弱 ， 因 此 也 更 难 学 习 。 如 果 你 还 是 想 学 习 它 们 或 从 基础 R 功 能 切换 到 stringr 组 件 ， 你 可 以 看 一 下 表 8-5。 它 概括 了 stringr 组 件 和 R 基 础 环境 里 
实现 的 阔 数 的 类 比 情 况 。 


表 8-5 — strinerZh 4 E vk BAY HP eh BK 


stringr 函数 基础 函数 
str extract ( ) regmatches () 
str extract al1l1() regmatches () 
str locate () regexpr () 
str locate all() gregexpr () 
使 用 正则 表 str replace () sub () 
TA SUH PRK str replace all() gsub () 
str split () Strseplit () 
str split fixed() - 
str detect () grepl () 
str count () - 


str sub() regmatches () 


\ lemo 
T 
一 
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str dup () - 


AP 
P 
ANS 
ah 
dy 
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stringr 函数 基础 函数 


| 


str_c() paste(),paste0d() 


8.2.2 ”其 他 实用 阔 数 


很 多 字符 串 操 作 任 务 都 可 以 利用 在 8.2.1 节 介绍 的 stringr 组 件 完成 。 不 过 ， 在 本 节 我 们 还 想 介绍 一 些 其 他 的 基础 R 函 数 。 文 本 数据 ， 尤 其 是 
从 网 络 来 源 抓 取 的 数据 ， 通 党 是 比较 杂乱 的 。 需 要 匹配 的 数据 会 有 不 同 的 格式 ， 名 字 也 有 不 同 的 拼写 ， 间 题 会 来 自 方方面面 。 在 本 书 中 ， 我 们 
通 篇 都 强调 了 及 集 数 据 之 后 进行 清理 的 必要 性 。 处 理 杂 乱 文 本 数据 的 一 种 方法 是 agrep () 遂 数 ， 它 通过 Levenshtein 距 离 提 供 了 近似 的 匹配 功 
能 。 不 需要 涉及 太 多 细节 ， 该 函数 就 能 够 计算 把 一 个 字符 串 转换 为 男 一 个 字符 串 所 需 的 插入 、 删 除 和 蔡 换 的 数量 。 通 过 指定 终止 次 数 川 ， 我 们 
就 可 以 得 到 在 某 个 字符 串 里 是 否 能 认为 存在 某 个 特征 的 一 个 条 件 。 


R> agrep("Barack Obama", "Barack H. Obama", max.distance = list(all = 3)) 
[1] 1 


在 这 个 例子 里 ， 我 们 在 字符 串 Barack H.Obama 里 寻找 特征 Barack Obama， 并 且 最 多 人 允许 在 字符 串 里 进行 三 次 改动 。 [2 我 们 可 以 把 这 次 
匹配 和 在 字符 串 Michelle Obama 里 查找 该 特征 的 情况 来 比较 一 下 。 


R> agrep("Barack Obama", "Michelle Obama", max.distance = list(all = 3)) 
integer (0) 


这 次 ， 要 企 该 字符 串 里 查找 该 特征 需要 太 多 的 修改 ; 因此 结果 是 没有 匹配 。 你 可 以 通过 调整 max.distance 和 costs 参 数 来 改变 特征 和 字符 串 
之 间 的 最 大 距离 。max.distance 参 数 越 大 (默认 值 为 0.1) ， 它 融会 找到 更 多 的 近似 匹配 。 利 用 costs 人 参数， 你 可 以 调整 近似 匹配 该 字符 串 所 需 
的 不 同 操作 的 开销 。 


另 一 个 实用 函数 是 pmatch () 。 访 函数 返回 的 是 第 一 个 向 量 的 字符 串 在 第 二 个 向 量 里 出 现 的 位 置 。 考 虑 上 面 的 字符 向 量 char.vec: 
c ("this", "and this", "and that") 。 


R> pmatch(c("and this", "and that", "and these", "and those"), char.vec) 
[1] 2 3 NA NA 


我 们 在 char.vec 这 个 字符 向 量 里 寻找 第 一 个 向 量 (c ("and this", "and that", "and these", "and those") 中 元 素 出 现 的 位 置 。 输 出 结 
果 表 明 第 一 个 元 素 出 现在 第 一 个 向 量 的 第 二 个 位 置 ， 第 二 个 元 素 出 现在 第 三 个 位 置 。 第 一 个 向 量 的 第 三 和 第 四 个 元 素 没 有 包含 在 char.vec 这 个 
字符 向 量 里 。 还 有 一 个 有 用 的 遂 数 是 make.unique () 。 利 用 这 个 国 数 ， 你 可 以 通过 在 必要 的 位 置 加 入 数字 ， 把 一 组 不 唯一 的 字符 串 转换 为 唯 
一 的 。 


R> make .unigque(c("a", ary. ait > Nae ey pr Ha") ) 
[1] We "j" "3,1" "co" Mm 1" "3.2" 


里 然 已 经 有 了 很 多 实用 遂 数 ， 但 总 会 在 一 些 问题 和 情况 下 ， 我 们 急需 某 个 特殊 水 数 却 没有 现成 的 。 这 类 问题 之 一 可 能 和 下 面 的 情况 类 似 。 
假如 我 们 要 在 一 个 字符 向 量 里 查找 超过 一 个 特征 ， 并 希望 获得 一 个 标明 匹配 行 的 逻辑 向 量 ， 或 者 列 出 所 有 匹配 行 的 行 号 的 索引 。 对 于 查找 特 
征 ， 我 们 知道 grep () , grepl () 或 str_ detect () 都 是 合适 的 候选 国 数 。 因 为 grep () 提供 了 一 个 切换 选择 ， 可 以 返回 匹配 文本 或 行 号 索引 
向 量 ， 所 以 我 们 尝试 用 grep () 作为 构建 解决 方案 的 起 点 。 我 们 先 下 载 一 个 《科普 和 森 一 家 》 剧 集 的 测试 数据 集 ， 并 把 它 保 仓 在 本 地 文件 
episodes.Rdata 里 。 


R> 


R> 


R> 


library (XML) 
# download file 
if (!file.exists("listOfSimpsonsEpisodes.htm1") ) { 


link <- "http://en.wikipedia.org/wiki/List of The Simpsons episodes" 


download.file(link, "listOfSimpsonsEpisodes.html", mode="wb") 


} 


# getting the table 


tables <- readHTMLTable("listOfSimpsonsEpisodes.html", 
header=T, stringsAsFactors=F) 

tmpcols <- names(tables[[3]]) 

for(i in 3:20) { 

tmpcols <- intersect (tmpcols, names(tables[[1i]])) 

} 

episodes <- NULL 

for(i in 3:20) { 

episodes <- rbind(episodes[,tmpcols] ,tables[[i]] [,tmpcols] ) 

} 

for(i in 1:dim(episodes) [2]) { 

Encoding (episodes[,i]) <- "UTF-8" 

} 

names (episodes) <- c("pnr", "nr", "title", "directedby", 
"Writtenby", "airdate", "productioncode") 

save (episodes, file="episodes.Rdata") 


让 我 们 加 载 包含 所 有 《科普 森 一 家 》 剧 集 的 表 。 


R> load("episodes.Rdata") 


正如 下 面 可 以 看 到 的 ， 对 于 同一 个 问题 ， 即 哪 一 集 在 剧 名 里 提 到 了 Homer， 利 用 grep () 和 grepl () 加 上 value=TRUE 选 项 ， 可 以 很 容易 
在 不 同 的 答案 之 间 切 损 。 当 我 们 开始 设计 正则 表达 式 的 时 候 ， 这 个 简单 的 切换 会 让 这 些 函 数 特别 有 价值 ， 因 为 可 能 最 终 需 要 一 个 索引 或 逻辑 向 
量 ， 但 我 们 可 以 先 用 这 个 value 选 项 来 检查 用 到 的 特征 是 人 否 真 的 有 效 。 


R> grep("Homer",episodesstitle[1:10], value=T) 


[1] 


"Homer's Odyssey" "Homer's Night Out" 


R> grepl ("Homer",episodesstitle[1:10] ) 
[1] FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE TRUE 


不 过 ， 这 里 缺少 的 部 分 是 要 求 同 时 能 匹配 一 大 批 特 征 的 选项 。 比 如 ， 我 们 想 要 知道 是 否 有 剧 集 在 剧 名 里 同时 提 到 了 Homer 和 Lisa。 标 准 的 
解决 办 法 可 能 是 为 每 个 要 匹配 的 特征 产生 一 个 逻辑 向 量 ， 之 后 再 把 它们 合并 为 一 个 逻辑 向 量 ， 当 所 有 特征 都 能 匹配 的 时 候 ， 让 合并 的 逻辑 向 量 


值 等 于 TRUE。 
R> ifferl <- grepl("Homer",episodesStitle) 
R> iffer2 <- grepl("Lisa",episodesStitle) 
R> iffer <- ifferl & iffer2 


虽然 这 种 解决 办 法 可 能 看 起 来 对 于 两 个 特征 的 情况 是 可 接受 的 ， 但 是 当 特 征 数 量 增 加 或 需要 重复 上 述 任务 时 ， 这 个 办 法 吏 


episodesStitle[iffer] 


"Homer vs. Lisa and the 8th Commandment" 


方便 。 因 此 ， 我 们 基于 grep () tle TNABAR. 


全 亦 : 得 
ALIF 


越 来 越 不 


R> grepall <- function(pattern, x, 
ignore.case = FALSE, perl = FALSE, 
fixed = FALSE, useBytes = FALSE, 
value=FALSE, logic=FALSE) { 
# error and exception handling 


if (length(pattern)==0 | length(x) ==0) { 
warning("Length of pattern or data equals zero.") 
return (NULL) 


tyt 


# apply grepl() and all() 
indicies <- sapply (pattern, grepl, x, 
ignore.case, perl, fixed, useBytes) 
index <- apply(indicies, 1, all) 
# indexation and return of results 
1f (logic==T) return (index) 
if (value==F) return((1:length(x) ) [index] ) 
if (value==T) return (x [index] ) 


} 
R> grepall(c("Lisa","Homer"), episodesstitle) 
[1] 26 
R> grepall(c("Lisa","Homer"), episodess$Stitle, value=T) 
[1] "Homer vs. Lisa and the 8th Commandment" 


grepall () 函数 的 设计 思路 是 这 样 的 : 我 们 需要 对 前 面 的 特征 查找 方法 进行 重复 ， 把 它 用 于 一 系列 的 特征 查找 ， 就 像 我 们 在 前 面 的 代码 片 
段 里 进行 两 个 不 同 的 特征 搜索 那样 。 要 把 查找 方法 用 到 一 系列 特征 上 ， 可 以 利用 循环 或 更 有 效率 的 apply 函 数 来 进行 。 因 此 ， 我 们 首先 运用 
grepl () 函数 ， 得 到 的 是 标明 了 在 哪 一 行 能 找到 哪个 特征 的 逻辑 向 量 。 因 为 我 们 得 到 了 一 个 向 量 作为 输入 ， 并 且 要 得 到 一 个 类 似 德 阵 的 对 象 作 
为 输出 ， 所 以 使 用 了 sapply () 函数 。 我 们 得 到 的 是 一 个 答 阵 ， 其 中 的 每 列 对 应 不 同 的 查找 特征 ， 每 行 则 对 应 每 个 字符 串 。 为 了 确定 是 否 在 某 
个 行 里 折 有 特征 都 匹配 上 了 ， 我 们 第 二 次 使 用 了 apply， 这 次 使 用 的 是 apply () ， 因 为 我 们 的 输入 是 一 个 矩 咋 。 当 一 行 里 的 所 有 值 都 是 true 的 
情况 下 ， 里 面 的 all () 函数 会 返回 TRUE， 而 只 要 有 任何 一 个 值 是 false 就 会 返回 FALSE。 取 决 于 我 们 希望 返回 的 向 量 里 包含 的 是 匹配 所 有 特征 的 
行 号 还 是 匹配 所 有 特征 的 文本 ，value 选 项 可 以 让 该 六 数 在 两 种 不 同 的 用 法 之 间 切 换 ， 让 内 部 逻辑 向 量 返 回 行 号 或 文本 。 要 得 到 完整 的 逻辑 向 
量 ， 我 们 可 以 利用 logic 选 项 。 除 了 提供 像 grep () 和 grepl () 这 两 个 用 于 查找 多 个 特征 的 功能 ，ignore.case、perl、fixed 或 useBytes 等 其 他 
所 有 选项 也 会 传递 给 第 一 个 apply 步 又， 让 这 个 功能 也 成 为 新 函数 grepall () 的 一 部 分 。 


[1] 这 里 的 “终止 次 数 ” 原 词 是 cutoff， 意 思 是 终止 党 试 匹配 之 前 最 多 尝试 的 插入 、 删 除 和 替换 的 次 数 


[2] 指定 两 个 字符 串 之 间 最 大 距离 的 另 一 种 办 法 ， 是 输入 一 个 相对 整个 字符 串 长 度 的 修改 比例 。 





译 者 注 


8.3 ”了 字 侍 编码 简介 


在 处 理 基 于 网 络 的 文本 数据 (尤其 是 非 英 语 数据 ) 时 ， 大 家 很 快 会 遇 到 编码 的 问题 。 没 有 什么 简单 的 规则 能 应 付 这 类 问题 ， 重 要 的 是 记 住 
由 此 而 来 的 困难 。 总 体 而 言 ， 字 符 编 码 揭 的 是 把 数字 二 进 制 信号 翻译 为 人 类 可 读 字 符 的 方式 ， 例 如 ， 从 “01100100” 得 到 一 个 字符 “d” 。 
为 世界 上 有 很 多 种 语言 ， 也 就 会 有 很 多 特殊 字符 ， 如 3a、9、<c 等 。 这 里 的 问题 在 于 有 不 同 的 翻译 对 照 表 ， 所 以 在 不 知道 某 个 二 进 制 信号 具体 是 
用 哪个 表 编 码 的 情况 下 ， 融 很 难 对 信号 的 正确 内 容 进 行 推 新 。 如 果 你 没有 修改 默认 设置 ，R 会 利用 系统 的 编码 方案 来 展现 内 容 。 你 可 以 利用 下 列 
国 数 坦 找 系统 标准 : 

R> Sys.getlocale() 


[1] "LC COLLATE=German Germany.1252;LC CTYPE=German Germany.1252; 
LC MONETARY=German Germany.1252;LC NUMERIC=C;LC TIME=German Germany.1252" 


如 果 你 还 没有 从 本 书 封面 的 作者 名 字 里 看 出 来 ， 那 就 告诉 你 ， 本 书 是 4 位 来 自 德国 的 人 在 一 台 安 装 了 德语 操作 系统 的 计算 机 上 写 的 。 隐 藏 在 
数字 1252 后 面 的 ， 是 字符 编码 名 Windows-1252， 它 是 运行 英语 和 其 他 一 些 语言 版 本 Microsoft Windows 的 计算 机 系统 的 默认 字符 编码 。 你 的 
输出 有 可 能 是 不 一 样 的 。 例 如 ， 如 果 你 在 美国 使 用 一 台 Windows PC， 前 面 的 R 调 用 会 给 你 返回 类 似 于 English_United states.1252 的 结果 。 如 
果 你 在 用 一 台 Mac 电 脑 操作 ， 编 码 标准 会 是 UTF-8。['j 让 我 们 输入 一 个 带 有 特殊 字符 的 字符 串 。 比 如 ， 下 面 这 个 来 自 名 为 “small frogs” ( 


små grodorna) 的 瑞典 流行 歌曲 的 片段 : 


R> small.frogs <- "Sma grodorna, sma grodorna ar lustiga att se." 
R> small.frogs 
[1] "Sma grodorna, sma grodorna ar lustiga att se." 


在 这 个 片段 里 有 好 几 个 特殊 字符 。 黔 认 情况 下 ， 我 们 的 输入 和 输出 都 预 设 为 Windows-1252 标 准 : 因此 输出 是 正确 的 。 利 用 iconv () & 
数 ， 我 们 可 以 把 字符 串 从 一 个 编码 模式 翻译 为 男 一 个 编码 模式 : 


RS small.frogs.utf8 <- iconv(small.frogs, from = "windows-1252", 
to = "UTF-8") 

R> Encoding (small .frogs .utf8) 

[1] "UTF-8" 


R> small.frogs.utf8 
[1] "Sma grodorna, sma grodorna ar lustiga att se." 


TX MIF, RSA T \Windows-12524RfS SUT F-SinEb aie. IH, AGP RE ISAUTF-84RfSHI SR. WORT 
这 个 字符 串 直 接 运 用 Encoding () 函数 ， 想 想 结 果 会 和 我 们 前 面 遇 到 的 有 什么 不 同 。 


R> Encoding(small.frogs.utf8) <- "windows-1252" 
R> small.frogs.utf8 
[1] "SmA¥ grodorna, smA¥ grodorna ARr lustiga att se." 


这 样 的 做 法 就 是 迫使 系统 把 UTF-8 编 码 的 二 进 制 序列 当 作用 其 他 编码 模式 产生 的 (系统 的 默认 编码 Windows-1252) , ARMEALA, Mà 
像 我 们 访问 一 个 声明 了 错误 编码 的 网 站 时 所 看 到 的 一 样 。 当 前 有 350 种 转换 模式 可 用 ， 通 过 iconvlist () 函数 融 能 查看 到 。 


R> sample(iconvlist(), 10) 

Li *Pris4* Platina "UTF-16BE" ICPD BS IS 
[5] "IBM860" "CPSG22 1" "TBM424" i 7 
[9] "WINDOWS-50221" "IBM864" 


知道 了 追踪 文本 (尤其 是 基于 Web 的 文本 ) 编码 的 重要 性 ， 现 在 我 们 就 可 以 来 讨论 如 何 找到 一 段 未 知 文本 的 编码 的 问题 。 笠 运 的 是 ， 很 多 
情况 下 网 站 会 在 它 的 标 头 给 出 一 个 指针 。 比 如 ，《 科 学 》 杂 志 的 网 站 (网址 是 http://www.sciencemag.org/) 的 一 个 <meta> 标 等 市 有 http- 
equiv 属 性 。 


R> library (RCur1) 
R> enc.test <- getURL("http://www.sciencemag.org/") 


R> unlist(str extract all(enc.test, "<meta.+?>") ) 

[1] "<meta http-equiv=\"Content-Type\" content=\"text/html; 
charset=UTF-8\" />" 

[2] "<meta name=\"googlebot \" content=\"NOODP\" i= 

[3] "<meta name=\"HW.ad-path\" content=\"/\" />" 


第 一 个 标签 提供 了 一 些 结构 信息 ， 是 关于 我 们 在 该 网 站 能 够 看 到 的 内 容 的 类 型 ， 以 及 字符 是 如 何 编码 的 ， 这 个 例子 里 是 UTF-8。 不 过 ， 如 
果 没 有 这 种 标签 ， 又 该 怎么 办 ”要 对 特定 文本 的 编码 进行 猜测 是 比较 困难 的 ， 但 是 在 tau 组 件 里 已 经 实现 了 一 些 对 付 这 种 问题 的 便利 函数 。 有 3 
个 函数 可 以 用 来 测试 某 个 特定 字符 串 的 编码 ， 它 们 是 is.ascii () 、is.locale O 和 is.utf8 O 。 这 些 函 数 所 做 的 是 测试 该 二 进 制 序列 在 特定 的 编 


码 模式 下 是 否 “ 合 法 ”。 回 想 一 下 ， 字 母 “a” 是 在 本 地 编码 模式 里 被 保存 为 特定 的 二 进 制 序列 。 这 个 二 进 制 序列 在 AsCll 模 式 下 是 非法 的 ， 
此 ， 该 字符 串 不 能 用 ASCII 编 码 。 实 际 上 ， 我 们 找到 的 结果 如 下 : 


R> library (tau) 
R> is.locale(small.frogs) 


[1] TRUE 
R> is.ascii(small.frogs) 
[1] FALSE 


[1] 这 种 编码 对 于 处 理 来 自 网 络 的 数据 非常 方便 ， 因 为 UTF-8 大 概 是 最 流行 的 编码 模式 ， 在 很 多 网 站 上 应 用 。 


小 结 


自动 化 数据 采集 的 很 多 方面 都 和 文字 数据 有 天。 典型 的 网 络 抓 取 工作 的 每 一 步 可 能 都 会 牵涉 某 种 形式 的 字符 串 操作 。 不 管 是 你 需要 根据 你 
的 需求 去 格式 化 一 个 URL 请 求 ， 还 是 从 HTML 网 页 采集 信息 ， 或 对 以 字符 串 形 式 出 现 的 结果 进行 整理 ， 还 是 一 般 的 数据 清理 工作 。 所 有 这 些 任 务 
都 需要 某 种 形式 的 字符 串 操 作 。 本 章 介绍 了 对 任何 这 些 任务 都 至 关 重 要 的 工具 ， 即 正则 表达 式 。 这 些 表 达 式 让 你 能 利用 高 度 灵活 的 查询 方法 来 
搜索 信息 。 


本 章 还 概括 了 字符 串 操作 的 主要 元 素 。 首 先 ， 我 们 介绍 了 R 里 实现 的 正则 表达 式 成 分 。 从 所 有 例子 里 最 简单 的 (单个 字符 在 正则 表达 式 里 代 
RAS) 开始 ， 我 们 逐步 介绍 到 更 复杂 的 广义 化 搜索 概念 ， 如 量化 符 和 字符 类 。 在 第 二 步 ， 我 们 讲解 了 正则 表达 式 和 字符 串 操 作 总 体 上 是 如 何 
执行 的 。 为 此 ， 我 们 总 体 介 绍 了 stringr 组 件 提供 的 函数 学 围 以 及 该 组 件 之 外 的 几 个 函数 。 本 章 的 结尾 是 有 关 处 理 字符 编码 方法 的 讨论 。 


延伸 阅读 


在 本 章 ， 我 们 介绍 了 在 R 里 实现 的 扩展 基本 正则 表达 了 式 。 要 了 解 相 关 概 念 的 总 体 情 况 ， 请 参阅 http://stat.ethz.ch/R-manual/R- 
patchedyVlibraryWbase/htmlyregex.html。 我 们 的 讲解 仅 限 于 扩展 正则 表达 式 ， 因 为 它 已 经 足以 完成 大 部 分 字符 串 操 作 的 弟 见 任务 。 不 过 ， 在 R 


里 也 有 另 一 种 正则 表达 式 的 风格 ， 即 Perl 正 则 表达 式 。 它 会 引入 本 章 所 讲解 范围 之 外 的 字符 串 操作 的 几 个 特性 。['j 如 果 你 对 Perl 正 则 表达 式 的 更 
多 内 容 感 兴趣 ， 请 参阅 http://www.pcre.org/。 


[1 不 过 ， 在 几乎 所 有 情况 下 ， 都 可 以 把 搜索 查询 条 件 分 解 成 几 个 更 小 的 、 能 用 扩展 正则 表达 式 轻松 处 理 的 查询 条 件 。 


1. 说 明正 则 表达 式 是 什么 ， 以 及 为 什么 它 能 用 在 网 络 抓 取 工 作 上 。 
2. 找 出 一 个 能 匹配 任何 文本 的 正则 表达 式 。 


3. 复 制 入 门 例子 ， 用 向 量 名 保存 提取 的 名 字 。 


R> name 
[1] "Moe Szyslak" "Burns, C. Montgomery" "Rev. Timothy Lovejoy" 
[4] "Ned Flanders" "Simpson, Homer" "Dr. Julius Hibbert" 


(a) 用 本 章 的 工具 重新 整理 向 量 ， 让 所 有 元 素 遵 循 标准 的 first_ name last name 样式 。 


(b) 构建 一 个 逻辑 向量 ,标明 人 物 是 否 有 头衔 (如 Rev. 和 Dr.) 。 


(c) 构建 一 个 逻辑 向 量 ,， 标明 人 物 是 否 有 第 二 个 名 字 。 

4. 说 明 符合 下 列 正则 表达 式 的 字符 串 类 型 ， 并 创建 一 个 匹配 的 例子 。 

(a) [0-9]+\\$ 

(b) \\bfa-z]{1, 4}\\b 

(c) .*? \\.txt$ 

(d) \\d{2}/\\d{2}/\\d{4} 

(e) < (+?) >.+? <A\1> 

5. 重 写 表达 式 [0-9]+\\$， 让 所 有 元 素 都 改变 ， 但 表达 式 执行 的 任务 是 一 样 的 。 
6. 考 虑 邮件 地 址 chunkylover53[atjaol[dotjcom。 

(a) 利用 正则 表达 式 把 这 个 字符 串 转化 为 一 个 标准 的 邮件 格式 。 

(b) 假如 我 们 在 尝试 把 邮件 地 址 里 的 数字 提取 出 来 。 为 此 我 们 编写 了 表达 式 [: digit: ]。 解 释 为 什么 它 会 失败 ， 并 纠正 该 表达 式 。 


(c) 我 们 打算 用 预定 义 符号 而 不 是 预定 义 字符 类 来 提取 邮件 中 的 数字 ， 为 此 我 们 编写 了 表达 式 \\D。 解 释 为 什么 它 会 失败 ， 并 纠正 该 表达 


7 SSL FT <title> +++BREAKING NEWS+++</title>。 我 们 想 要 提取 出 第 一 个 HTML 标 签 。 为 此 我 们 编写 了 正则 表达 式 <.+ >。 解 释 
为 什么 它 会 失败 ， 并 纠正 该 表达 式 。 


SSB (5-3) 42=542-2*5*3+342conforms to the binomial theorem。 我 们 想 要 提取 出 字符 串 中 那个 公式 。 为 此 我 们 编写 了 正 
则 表达 式 [^A0-9=+* () ]+。 解 释 为 什么 它 会 失败 ， 并 纠正 该 表达 式 。 


9. 下 面 的 密码 里 隐藏 了 一 个 秘密 消息 。 用 R 和 正则 表达 式 破 解 它 。 提 示 : 其 中 某 些 字符 比 其 他 字符 更 有 局 发 性 ! 作为 答案 的 代码 小 片段 也 可 
以 在 www.r-datacollection.com 的 材料 中 找到 。 


ClcopCowlzmstc0d87wnkig7OvdicpNuggvhryn92GJuwczi8hqrfpRxs5A] 5dwpn0Tanwo 
Uwisdij7LJ8kpf03AT5Idr3coc0bt7yczjatoaootj55t3Nj3ne6c4Sfek.rıwlYwwojigoO 
d6vrfUrbz2 .2bkAnbhzgv4R9i05zEcrop.wAgnb.sqoU65fPalotfb7wEm24k6t3sR9zqe5 
fy89n6Nd5t9kc4fE905gmc4Rgxo5nhDk!gr 


10. 为 什么 在 处 理 字符 数据 时 熟悉 字符 编码 很 重要 ? 


一 部 分 ”网络 抓 取 和 文本 挖掘 实用 工具 箱 


第 9 和 草 ”网 络 抓 取 


学 习 过 很 多 关于 网 络 以 构 的 基础 知识 后 ， 我 们 现在 来 讲解 数据 采集 的 实际 应 用 。 在 本 章 中 ， 我 们 要 讨论 到 利用 Ri 直行 网 络 抓 取 的 三 个 主要 方 
面 。 首 先是 在 不 同 的 场景 里 如 何 从 网 络 检索 数据 (9.1 节 ) 。 回 顾 一 下 图 1-4。 本 章 的 第 一 部 分 会 着 眼 于 我 们 在 R 里 尝试 从 服务 器 获取 资源 的 阶 
段 。 在 这 个 步骤 中 ， 涉 及 的 天 键 技术 是 HTTP。 我 们 会 给 出 一 套 实 际 场 景 来 展示 如 何 利用 libcurl 在 各 种 情况 下 采集 数据 。 除 了 基于 HTTP 或 FTP 通 
信 的 例子 ， 我 们 还 会 介绍 Web 服 务 (Web 应 用 编程 接口 (Application Programming Interfaces, API) ) 以 及 相关 的 身份 验证 标准 OAuth 的 
使 用 方法 。 我 们 还 提供 了 在 第 6 章 讲 到 的 抓 取 动 态 内 容 问题 的 一 个 解决 方案 。9.1.9 节 提供 了 对 Selenium 的 介绍 ， 这 是 一 个 浏览 器 自动 化 工具 ， 
可 以 用 于 从 JavaScript 改 进 的 页 面 采 集 内 容 。 


本 章 的 第 二 部 分 会 讲解 从 末 集 的 资源 里 提取 信息 的 策略 (9.275) 。 我 们 已 经 熟悉 了 必要 的 技术 : 正则 表达 式 (第 8 草 ) 及 XPath (第 4 
章 ) 。 从 基于 技术 的 角度 看 ， 这 个 主题 对 应 的 是 图 1-4 里 的 第 2 列 。 在 这 部 分 内 容 里 ,我们 要 从 更 实用 的 角度 阔 明 这 些 技 术 ， 给 出 该 策略 的 形象 
化 概述 ， 并 讨论 它们 的 优势 和 不 足 。 我 们 也 要 再 次 讨论 APl， 它 是 自动 化 网 络 数 据 采 集 的 理想 案例 ， 因 为 它 无 颖 集成 了 检索 和 提取 阶段 。 


不 管 从 网 络 抓 取信 息 的 难度 水 平 如 何 ， 抓 取 的 过 程 几 乎 总 是 相同 的 。 下 面 的 任务 就 是 大 部 分 抓 取 工 作 的 一 部 分 : 
1) 信息 识别 。 

2) 策略 选择 。 

3) 数据 检索 。 

4) 信息 提取 。 

5) 数据 准备 。 

6) 数据 校 验 。 

7) 调试 和 维护 。 

8) 通用 化 。 


网 络 抓 取 的 艺术 束 在 于 明智 地 组 合 和 完善 这 些 步 又， 而 我 们 只 能 通过 理论 (参见 9.2 节 ) 或 一 组 检索 场景 和 案例 分 析 的 例子 来 概括 一 些 基 本 
RM. VNR, “BACHE SS?" “R 对 于 我 的 网 络 数据 采集 工作 是 不 是 正确 的 工具 ?” ”和 “我 选择 的 数据 源 在 长 期 看 是 否 可 靠 ? ”这 
类 问题 是 要 根据 项 目的 具体 情况 具体 分 析 的 ， 并 没有 放 之 四 海 而 缘 准 的 答案 。 


本 章 的 第 三 部 分 涉及 网 络 抓 取 的 一 个 重要 但 有 时 存在 争议 的 方面 。 它 讨论 的 是 作为 网 络 抓 取 者 如 何在 网 络 上 行为 得 体 的 问题 。 我 们 相信 海 
量 的 在 线 数 据 是 正面 的 ， 它 为 了 解 人 类 的 交互 开局 了 新 的 方法 。 而 采集 这 些 数 据 的 行为 从 根本 上 是 否 正 面 ， 则 在 很 大 程度 上 取决 于 数据 采集 者 
的 行为 以 及 采集 数据 的 目的 。 后 者 完全 取决 于 你 。 对 于 前 者 ， 我 们 在 9.3 节 会 给 出 一 些 基 本 的 建议 。 我 们 会 讨论 网 络 抓 取 的 法 律 意义 、 讲 解 如 何 
对 待 网 络 怜 虫 行为 的 非 正式 标准 robots.txt， 并 针对 友好 的 网 络 抓 取 行 为 给 出 实用 的 指导 原则 。 


本 章 的 结尾 部 分 简略 介绍 了 进一步 丰富 R 的 网 络 抓 取 数 据 接 口 的 前 沿 工作 ， 以 及 网 络 抓 取 技术 的 上 友 展 方向 (9.475) 。 


在 我 们 言 归 正 传 之 前 ， 最 后 再 踪 叫 一 句 : 本 章 主要 是 天 于 如 何 构建 特殊 用 途 的 网 络 抓 取 程序 的 。 我 们 对 网 络 抓 取 程序 的 定义 是 从 网 页 抓 取 
特定 内 容 的 程序 。 这 些 特 定 的 信息 可 能 是 电话 号 码 数据 (参见 第 15 章 ) 、 产 品 数据 (参见 第 16 章 ) 或 政治 行为 数据 (参见 第 12 章 ) 。 相 比 之 
F, HH (BER, MNRE) 是 抓 取 整 个 页 面 进行 索引 ， 并 顺 着 每 个 能 找到 的 链接 肥 遍 网 络 的 程序 。 大 部 分 抓 取 工 作 都 涉及 一 个 蜘蛛 部 
件 。 为 了 从 网 页 提取 内 容 ， 我 们 通 弟 务 整体 下 载 它 们 ， 然 后 继续 进行 提取 部 分 的 工作 。 不 过 总 体 而 言 ， 我 们 会 忽略 那些 没有 特定 数据 采集 对 
象 ， 而 是 把 疏 志 网 络 作为 目标 的 场景 。 


9.1 ”数据 检索 的 场景 


对 于 后 面 的 网 络 数据 检索 场景 我们 都 依赖 于 如 下 的 一 套 R 组 件 ， 它 们 都 是 本 书 第 一 部 分 介绍 过 的 。 我 们 假定 你 在 练习 的 时 候 已 经 加 载 了 它 
们 。 在 本 章 需 要 用 到 其 他 组 件 的 时 候 ， 我 们 都 会 一 一 指出 。 


Rw library (RCur1) 
R> library (XML) 
R> library (stringr) 


9.1.1 下 载 现 成 的 文件 


从 网 络 获取 数据 的 第 一 种 方式 基本 上 简单 得 不 值 一 提 ， 实 际 上 它 从 狭义 上 说 都 不 属于 网 络 抓 取 的 范畴 。 在 某 些 情况 下 ， 我 们 会 发 现 感 兴趣 
的 数据 已 经 有 了 TXT、CSV 或 其 他 任何 类 似 于 PDF、XLS 或 JPEG 的 文本 /表格 (plain-text/spreadsheet) 格式 或 二 进 制 格式 ， 可 以 直接 下 载 。 
对 于 这 些 简单 任务 ，R 也 是 有 用 的 ， 因 为 数据 获取 的 过 程 原 则 上 仍然 是 可 重复 的 ， 这 可 以 节省 大 量 的 时 间 。 我 们 挑选 了 两 个 常见 的 例子 来 说 明 在 
这 类 情况 下 使 用 R 的 好 处 。 


9.1.1.1 ”CSV 格式 的 选举 结果 数据 


马里 兰州 选举 委员 会 的 网 站 http://www.elections.state.md.us/ 提 供 了 关于 以 往 选 举 的 丰富 数据 源 。 我 们 在 其 中 一 个 页 面 的 子 目 
录 http://www.elections.state.md.us/elections/2012/election data/index.html 里 找 人 天 了 一 套用 逗号 分 隔 值 ( 即 一 种 CSV 分 隔 方 式 ) 的 电子 
表格 ， 里 面 是 有 关 2012 年 总 统 选举 在 马里 兰州 的 州 、 县 和 区 一 级 选举 结果 。 目标 文件 可 以 通过 一 般 的 链接 访问 到 。 假 设 我 们 需要 下 载 这 些 文件 
用 于 分 析 。 

指向 这 些 CSV 文 件 的 链接 分 散在 页 面 的 多 个 表 里 。 我 们 只 对 其 中 一 些 文档 感 兴 趣 ， 具 体 说 是 那些 包含 了 大 选 原始 选举 结果 的 文档 。 该 页 面 
还 提供 了 关于 初 选 和 投票 问卷 的 数据 。 为 了 检索 我 们 需要 的 文件 ， 要 进行 三 个 步骤 。 

1) 找到 想 要 文件 的 链接 。 

2) 构建 一 个 下 载 函 数 。 

3) 下 载 。 


XML 组 件 提供 了 一 个 精巧 的 函数 getHTMLLinks () ， 可 以 用 来 在 一 个 HTML 网 页 里 识别 链接 。 我 们 会 在 9.1.4 节 更 详细 地 介绍 它 和 其 他 来 
目 XML 组 件 的 便利 函数 。 

我 们 要 利用 getHTMLLinks () 在 已 分 配给 url 对 象 的 HTML 网 页 里 提取 出 所 有 的 URL 和 外 部 文件 名 。 在 links 里 的 链接 列表 除了 我 们 感 兴 趣 
的 条 目 ， 还 有 其 他 的 链接 ， 所 以 我 们 要 运用 正则 表达 式 “General.csv” 来 检索 其 中 指向 大 选 结果 CSV 的 外 部 文件 名 子 集 。 最 后 ， 我 们 要 把 这 些 
文件 名 保存 到 一 个 列表 ， 在 下 一 步 台 可 以 对 它 调 用 下 载 函 数 了 。 


R> url <- "http://www.elections.state.md.us/elections/2012/election | 
data/index.html1" 


R> links <- getHTMLLinks (url) 
R> filenames <- links[str detect(links, " General.csv") ] 


R> filenames list <- as.list (filenames) 
R> filenames list[1:3] 


({1]] 


[1] "http://www.elections.state.md.us/elections/2012/election data/ 
State Legislative Districts 2012 General.csv" 


[[2]] 
[1] "http://www.elections.state.md.us/elections/2012/election data/ 
Allegany County 2012 General.csv" 


[{3]] 
[1] "http://www.elections.state.md.us/elections/2012/election data/ 


Allegany By Precinct 2012 General.csv" 


B-2, RERE- CAAF TRAA AAA downloadCSV () 。 该 国 数 包 合 了 基础 R 国 数 download.file () ， 在 标准 的 场 
景 里 用 它 下载 URL 或 其 他 文件 是 最 合适 的 。 我 们 设置 的 函数 里 有 3 个 参数 。 其 中 的 filename 指 向 filenames list 对 象 里 的 每 个 条 目 。baseur| 则 指 
定 了 要 下 载 文 件 的 原 路 径 。 再 加 上 文件 名 ， 我 们 就 能 构建 每 个 文件 的 完整 URL。 我 们 用 str_c () 来 完成 这 些 URL 的 构建 并 把 结果 传递 给 
download.file () 遂 数 。 我 们 设置 消 数 的 第 三 个 参数 是 在 本 地 磁盘 的 保存 位 置 。 我 们 会 确定 用 来 保存 CSV 文 件 的 一 个 文件 来， 并 把 文件 夹 名 作 
为 参数 加 入 函数 。 我 们 还 对 下 载 操作 进行 了 如 下 的 微调 : 1) 利用 file.exists () 国 数 的 判断 ， 确 保 只 有 当 文 件 在 该 文件 夹 里 还 不 和 存在 的 情况 下 
才 进 行 下 载 ; 2) 在 每 个 文件 下 载 操作 之 间 有 1 秒 的 暂停 。 我 们 会 在 9.3.3 节 说 明 进 行 这 两 个 微调 的 原因 。 


R> downloadCSV <- function(filename, baseurl, folder) { 


R> dir.create(folder, showWarnings = FALSE) 

R> fileurl <- str_c(baseurl, filename) 

R> if (!file.exists(str c(folder, "/", filename))) { 

R> download.file(fileurl, 

R> destfile = str_c(folder, "/", filename) ) 
R> Sys.sleep (1) 

R> } 

R> } 


利用 来 自 plyr 组 件 的 | ply () 函数 ， 我 们 可 以 把 该 国 数 运用 到 CSV 文 件 名 列表 filenames list. | ply () 国 数 把 一 个 列表 作为 主 参 数 ， 并 把 
列表 里 的 每 个 元 素 作为 参数 传递 给 指定 的 肖 数 ， 在 本 例 中 是 downloadCSV () 。 我 们 还 可 以 传递 更 多 参数 给 该 六 数 。 通 过 baseur|， 我 们 可 以 
确定 所 有 CSV 文 件 所 在 的 路 径 。 根 据 folder， 我 们 可 以 选 定 要 保存 这 些 CSV 文 件 的 本 地 文件 夹 。 

R> library (plyr) 

R> 1 ply(filenames list, downloadCSV, 


R> baseurl = "www.elections.state.md.us/elections/2012/election data/", 
R> folder = "elecl2 maryland") 


要 核对 执行 的 结果 ， 我 们 可 以 看 看 下 载 文 件 的 数量 和 前 面 的 一 组 条 目 。 


R> length(list.files("./elec12 maryland") ) 
[1] 68 


R> list.files("./elecl12 maryland") [1:3] 

[1] "Allegany By Precinct 2012 General.csv" 

[2] "Allegany County 2012 General.csv" 

[3] "Anne Arundel By Precinct 2012 General.csv" 


68 个 CSV 文 件 被 加 入 了 文件 夹 。 我 们 现在 可 以 通过 调用 read.csv() 把 文件 导入 R 进 行 分 析 。 网 络 抓 取 任 务 就 此 完成 ， 而 且 很 容易 复制 并 用 
于 该 网 站 上 保存 的 其 他 选举 数据 。 


9.1.1.2 PDF 格式 的 立法 选区 图 


download.file () 往往 没有 提供 我 们 从 特定 网 站 下 载 文 件 所 需 的 功能 。 尤 其 是 它 在 默认 情况 下 不 支持 通过 HTTPS 检 索 数 据 ， 而 且 也 不 能 处 
理 cookie 或 其 他 很 多 HTTP 的 高 级 特性 。 在 这 种 情况 下 ， 我 们 可 以 改 用 RCurl 组 件 的 高 级 函数 ， 它 们 能 够 轻松 处 理 这 类 问题 ， 还 提供 了 其 他 有 用 
的 选项 。 


作为 示例 ， 我 们 尝试 检索 2012 年 马里 兰州 立法 选区 分 布 图 的 PDF 文 件 ， 作 为 前 面 投 票数 据 的 补充 。 该 分 布 图 可 以 在 马里 兰州 规划 部 的 网 
站 http://planning.maryland.gowWRedistricting/2010/legiDist.shtml 上 获取 。 四 目标 PDF 文件 可 以 在 屏幕 右 下 角 的 一 个 三 列表 格 里 找到 ， 分 别 
命名 为 “1A，” “1B，” 等。 我 们 重复 使 用 了 前 面 的 下 载 程序 ， 但 是 指定 了 不 同 的 baseurl 和 正则 表达 式 来 检测 需要 的 文件 。 


R> url <- "http://planning.maryland.gov/Redistricting/2010/legiDist.shtml1" 
R> links <- getHTMLLinks (url) 

R> filenames <- links[str detect(links, "2010maps/Leg/Districts ")] 

R> filenames list <- str_extract all(filenames, "Districts.+pdf") 


现在 ,下载 函数 downloadPDF () 是 依赖 于 getBinaryURL () 的 。 我 们 可 以 利用 一 个 curl 句 柄 。 我 们 不 能 在 getBinaryURL () 函数 里 指 
定 一 个 目标 文件 ， 所 以 把 原始 数据 保存 在 pdffile 对 象 里 ， 然 后 把 它 传递 给 writeBin () ， 它 会 把 PDF 文件 写 进 指定 的 文件 夹 。 新 的 下 载 国 数 
downloadPDF () 的 其 他 部 分 和 前 面 的 下 载 国 数 是 一 样 的 。 


R> downloadPDF <- function(filename, baseurl, folder, handle) { 


R> dir.create(folder, showWarnings = FALSE) 

R> fileurl <- str_c(baseurl, filename) 

R> if (!file.exists(str_c(folder, "/", filename))) { 

R> content <- getBinaryURL(fileurl, curl = handle) 
R> writeBin (content, str _c(folder, "/", filename) ) 
R> Sys.sleep (1) 

R> } 

R> } 


我 们 在 执行 该 函数 的 时 候 会 带 上 一 个 句柄 ， 里 面 给 每 次 调用 加 入 了 一 个 User-Agent 和 From 标 头 字段 ， 并 保持 连接 。 如 果 需 要 处 理 cookie 
或 其 他 HTTP 特 性 ， 那 么 还 可 以 指定 其 他 选项 。 

R> handle <- getCurlHandle(useragent = str c(R.versionsplatform, 

R.versionSversion.string, sep=", "), httpheader = c(from = 


"eddie@datacollection.com") ) 


R> 1 ply(filenames list, downloadPDF, 


R> baseurl = "planning.maryland.gov/PDF/Redistricting/2010maps/Leg/", 
R> folder = "elecl2 maryland maps", 
R> handle = handle) 


同样 ， 我 们 可 以 通过 三 看 下 载 文 件 的 数量 和 前 面 的 一 组 条 目 来 检查 结果 。 


R> length(list.files("./elecl2 maryland maps") ) 
[1] 68 


R> list.files("./elecl2 maryland maps") [1:3] 
Lit "Dastriete LO ROLE “Dretricta 71.paet™ FIISErICES TA par 


看 起 来 一 切 结果 都 是 正常 的 一 一 下 载 了 68 个 PDF 文 件 。 这 个 练习 的 底线 是 ， 从 某 个 网 站 下 载 纯 文本 或 二 进 制 文件 是 最 简单 的 任务 之 一 。 它 
的 核心 工具 是 download.file () 和 RCur 的 高 级 函数 。 来 目 XML 组 件 的 getHTMLLinks () 对 于 识别 单个 文件 的 链接 通常 是 很 好 用 的 ， 尤 其 是 
当 这 些 链接 分 散在 网 页 各 处 的 情况 下 。 


9.1.2 ”从 FTP 索 引 下载 多 个 文件 


在 5.3.2 节 ， 我 们 已 经 介绍 过 一 个 用 于 纯 文件 传输 的 HTTP 蔡 代 网 络 协议 ， 即 文件 传输 协议 (FTP) 。 从 FTP 服 务 器 下载 文件 对 于 数据 搜集 者 
来 说 是 有 益 的 工作 ， 因 为 FTP 服 务 器 只 提供 文件 ， 没 有 其 他 内 容 。 我 们 不 必 花 心思 去 掉 HTML 布 局 或 其 他 不 需要 的 信息 。 同 样 ，RCurl 对 于 从 
FTP 效 取 文件 也 是 非常 适合 的 。 


让 我 们 看 一 下 CRAN FTP 服 务 器 ， 来 了 解 这 种 方法 的 工作 原理 。 该 服务 器 的 URL 是 ftp: //cran.r-project.org/。 它 保存 了 很 多 关于 R 的 数 
据 ， 包 括 旧 版 本 的 R、CRAN 任 务 视图 和 所 有 的 CRAN 组 件 。 比 如 ， 我 们 想 要 下 载 所 有 CRAN 任 务 视 图 的 HTML 文 件 ， 目 的 是 更 详细 地 查看 它 
们 。 它 们 保存 在 ftp: //cran.r-project.org/pub/R/web/views/。 我 们 的 下 载 策 略 和 上 一 个 场景 是 相似 的 。 


1) 识别 所 需 的 文件 。 
2) 创建 一 个 下 载 阔 数 。 
3) 下 载 。 


为 了 把 FTP 目 录 列 表 加 载 到 R 里 ,我 们 要 把 该 URL 分 配给 人 tp 对 象 。 下 一 步 ， 我 们 要 通过 getURL () 把 文件 名 列表 保存 到 ftp files, [he 
过 把 libcurl 的 dirlistonly 选 项 设置 为 TRUE， 我 们 可 以 确保 获取 的 数据 只 有 文件 名 ， 而 没有 其 他 关于 文件 大 小 或 创建 日 期 之 类 的 信息 。 


R> ftp <- "ftp://cran.r-project.org/pub/R/web/views/" 
R> ftp files <- getURL(ftp, dirlistonly = TRUE) 


有 时 候 ， 在 libcurl 里 的 默认 FTP 模 式 ， 即 扩展 被 动 模式 (EPSV) ， 对 于 某 些 FTP 服 务 器 是 无 效 的 。 在 这 种 情况 下 ， 我 们 必须 加 入 
ftp.use.epsv=FALSE 选 项 。 在 我 们 的 例子 里 ， 已 经 成 功 下 载 了 文件 列表 并 把 它 保存 在 一 个 字符 向 量 ftp_ files 里 。 不 过 ， 这 些 信息 被 换行 和 回 车 
符 \Nn 弄 乱 了 ， 里 面 还 包含 CTV 文 件 。 


R> ftp files 


[1] "Bayesian.ctv\r\nBayesian.html\r\nChemPhys.ctv\r\nChemPhys.html\r..." 


为 了 去 掉 这 些 回 车 符 和 换行 符 ， 我 们 把 它们 作为 str split O 的 拆 分 特征 。 我 们 还 对 str extract all () 运用 了 一 个 正则 表达 式 ， 只 选取 其 
中 的 HTML 文 件 : 


R> filenames <- str split(ftp files, "\r\n") [[1]] 
R> filenames html <- unlist (str extract all(filenames, ".+(.html)")) 


R> filenames html [1:3] 
[1] "Bayesian.html" "ChemPhys.html" "Clinical Trials.HeEmL* 


ie HT MLC APSR EIB) (B EB “Sa re: 


R> filenames html <- getURL(ftp, customrequest = "NLST *.html1") 
R> filenames html = str split (filenames html, "\\\r\\\n") [[1]] 


利用 这 种 方式 ， 把 FTP 命 令 NLST*.html 传 递 给 我 们 的 函数 。 这 样 会 返回 在 FTP 目 录 里 以 .html 结 尾 的 文件 名 的 一 个 列表 。 这 样 ， 我 们 就 可 以 
利用 libcurl 组 件 的 customrequest 选 项 ， 该 选项 让 我 们 能 修改 请 求 方法 ， 并 且 无 须 事后 再 提取 HTML 文 件 。D] 


最 后 ， 我 们 构建 downloadFTP () 函数 ， 它 从 FTP 服 务 器 获取 我 们 想 要 的 文件 并 把 它们 保存 在 指定 的 文件 夹 里 。 它 基本 上 效仿 了 9.1.1 节 里 
downloadPDF () 函数 的 语法 。 


R> downloadFTP <- function(filename, folder, handle) { 


R> dir.create(folder, showWarnings = FALSE) 

R> fileurl <- str_c(ftp, filename) 

R> if (!file.exists(str_c(folder, "/", filename) ) ) { 

R> content <- try(getURL(fileurl, curl = handle) ) 
R> write(content, str_c(folder, "/", filename) ) 
R> Sys.sleep (1) 

R> } 

R> } 


然后 ， 我 们 要 设置 一 个 禁用 FTP 扩 展 被 动 模式 的 句柄 ， 并 把 CRAN 任 务 视图 的 HTML 网 页 下载 到 cran_tasks 文 件 夹 : 


R> handle <- getCurlHandle(ftp.use.epsv = FALSE) 
R> 1 ply(filenames list, downloadFTP, 
R> folder = "cran tasks", 


R> handle = handle) 


快速 查看 一 下 新 建 的 文件 夹 ， 可 以 看 出 文件 已 经 成 功 下 载 。 


R> length(list.files("./cran tasks") ) 


[1] 34 
R> list.files("./cran tasks") [1:3] 
[1] "Bayesian.html" "ChemPhys.htm1" "ClinicalTrials.html" 


上 传 数据 到 FTP 服 务 器 也 是 可 以 的 。 因 为 我 们 没有 权限 向 CRAN 服 务 器 上 传 内 容 ， 所 以 在 此 提供 一 个 虚构 的 例子 。 


R> ftpUpload(what = "example.txt", to = "ftp://example.com/", 
userpwd = "username:password" ) 


要 体验 一 下 当年 FTP 里 只 有 数据 和 目录 的 好 时 光 ， 可 以 访问 http://www.search-ftps.com/ 或 http://www .filesearching.com/， 搜 索 现 有 
的 存档 。 不 过 ， 你 偶然 也 可 能 会 找到 一 些 在 质量 方面 有 争议 的 内 容 。 


9.1.3 ”操作 URL 访 问 多 个 页 面 


我 们 通常 很 少 关心 访问 的 网 站 地 址 。 有 时候 我 们 可 能 会 通过 在 浏览 器 里 输入 URL 来 访问 一 个 网 页 ， 但 更 多 的 时 候 是 通过 搜索 引 掌 打开 一 个 
网 站 。 不 管 是 哪 种 方式 ， 一 旦 访问 了 某 个 网 站 ， 我 们 残 会 通过 点 击 链接 到 处 浏览 ， 而 不 会 再 天 注 这 样 一 个 事实 : 当 我 们 在 同一 个 服务 器 上 访问 
各 种 站 点 时 ，URL 会 随 之 改变 。 我 们 已 经 知道 一 个 Web 服 务 器 上 的 目录 和 本 地 硬盘 上 的 目录 是 类 似 的 。 一 旦 我 们 认识 到 网 站 的 目录 遵循 特定 的 
系统 分 类 ， 束 可 以 利用 这 个 事实 ， 并 通过 操作 站 点 的 URL 将 其 应 用 于 网 络 抓 取 。 与 其 他 检索 策略 相 比 ，URL 操 作 是 一 种 “ 米 快 猛 ” 的 方法 ， 因 为 
我 们 通常 不 太 关 心 产生 URL 的 内 部 机 制 (如 GET 表 单 ) 。 


比如 ， 我 们 想 要 从 Transparency International (透明 国际 ) 组 织 采 集 所 有 的 新 闻 公 告 。 你 可 以 


Allnttp://www.transparency.org/news/pressreleases/AY “News” 标题 下 查看 该 组 织 的 新 闻 公 告 。 现 在 ， 从 下 拉 菜 单 里 选择 2011 年 。 注 意 
year/2011 语 句 是 如 何 添加 a 到 URL 后 面 的 。 我 们 可 以 运用 这 个 规律 ， 通 过 修改 URL 里 的 数字 调 出 从 2010 年 起 始 的 新 闻 公 告 。 不 出 我 们 所 料 ， 现 在 
浏 昂 器 显示 的 是 所 有 从 2010 年 起 始 的 新 闻 公 告 ， 从 12 月 下 旬 的 开始 。 注 意 网 页 给 每 次 搜索 只 显示 10 个 条 目的 方式 。 点 击 页面 底 部 的 “Next”.。 
我 们 会 发 现 URL 最 后 加 上 了 语句 P10。 显 然 ， 我 们 可 以 通过 10 的 乘积 来 选择 特定 的 结果 页 。 让 我 们 通过 选择 目 

录 http://www.transparency.org/news/pressreleases/year/2010/P30 来 选中 2010 年 新 闻 公 告 的 第 4 个 页 面 。 实 际 上 ， 我 们 可 以 通过 操作 URL 
而 不 是 点 击 HTML 按 钮 来 逛 志 整个 新 闻 公 告 页 面 。 


现在 让 我 们 利用 这 些 规律 并 在 小 型 的 抓 取 程序 里 实现 它们 。 通 过 5 个 步骤 来 进行 : 
1) 在 URL 语 法 里 识别 其 实际 机 制 。 

2) 检索 实际 页 面 的 链接 。 

3) 下 载 实际 页 面 。 

4) 在 实际 页 面 上 检索 各 个 条 目的 链接 。 

5) 下 载 单个 条 目 。 


我 们 先 来 创建 一 个 国 数 ， 它 会 对 索引 里 的 每 个 页 面 返回 一 个 URL 列 表 。 我 们 已 经 识别 了 这 个 URL 语 法 的 实际 机 制 ， 为 首页 之 外 的 每 个 页 面 在 
基准 URL 后 面 附加 一 个 字母 P 和 一 个 10 的 倍数 。 为 了 了 解 这 样 的 页 面 的 数量 ， 我 们 通过 首页 底部 的 “Page x of X” 来 检索 页 面 的 总 数 。 这 里 
的 “X” 就 是 总 页 面 数 。 我 们 可 以 利用 XPath 命令 //div[@id='Page']/strong[2] 提 取 该 数字 ， 并 利用 结果 (total pages) 和 附加 在 基准 URL 上 
的 字符 串 (这 里 是 /P) 一 起 构建 一 个 向 量 add_url。 这 样 ， 我 们 就 构建 了 X-1 个 要 添加 到 基准 URL 后 面 的 片段 。 我 们 把 这 个 数字 乘 以 10 以 后 保存 
到 max_url 里 ， 因 为 页 面 的 索引 是 从 10 到 X*10 而 不 是 从 1 到 X， 然 后 再 把 页 号 数字 和 /P 合 并 ， 然 后 保存 到 add_url 对 象 里 。 


R> baseurl <- htmlParse("http://www.transparency.org/news/ 
pressreleases/year/2010") 

R> xpath <- "//div[@id='Page']/strong[2]" 

R> total pages <- as.numeric(xpathSApply(baseurl, xpath, xmlValue) ) 
R> total pages 

[1] 16 


R> max url <- (total pages - 1) * 10 
R> add url <- ser ETI p", seq(10, max url, 10)) 


R> add url 
[1] "p107 "7 Poo? "/p30" a "/psSo" "/D60" a "/pgo" 
[9] pod” "TPL" "LPD" LO RAPITI" "/P140" "/Pp150" 


下 一 步 ， 构 建 完整 的 一 批 URL 并 把 它们 放 到 一 个 列表 里 。 为 了 也 能 提取 来 自首 页 的 条 目 ， 我 们 把 基准 URL 也 加 入 了 人 列表。 所 有 内 容 都 被 打包 
放 进 一 个 函数 getPageURLs () ， 它 会 以 列表 形式 返回 单个 索引 页 里 包含 的 URL。 


R> getPageURLs <- function(url) { 
baseurl <- htmlParse (url) 
xpath <- "//div[@id='Page']/strong[2]" 
total pages <- as.numeric(xpathSApply(baseurl, xpath, xmlValue) ) 
max url <- (total pages - 1) * 10 
add url <- str_c("/P", seq(10, max url, 10)) 
urls list <- as.list(str c(url, add url)) 
urls list[length(urls list) + 1] <- url 
return(urls list) 


HAZAR, (S220 RGR: 


R> url <- "http://www.transparency.org/news/pressreleases/year/2010" 
R> urls list <- getPageURLs (url) 

R> urls list [1:3] 

CELF] 

[1] "http://www.transparency.org/news/pressreleases/year/2010/P10" 


LEZI] 
[1] "http://www.transparency.org/news/pressreleases/year/2010/P20" 


ES 
[1] "http://www.transparency.org/news/pressreleases/year/2010/P30" 


ERF, HETA FARSI. Ame MgetPageURLs () 返回 的 URL 列 表 作 为 参数 ， 提 取 其 中 的 文件 名 ， 并 把 对 
应 的 HTML 页 面 写 到 一 个 本 地 文件 夹 里 。 


注意 ， 我 们 必须 手工 为 基准 URL 索 引 添加 一 个 文件 名 ， 因 为 识别 文件 名 的 正则 表达 陈 “/P.+” 在 此 并 不 适用 。 这 惑 是 在 函数 第 4 行 完成 的 工 
作 。 照 例 ， 下 载 是 通过 getURIL 执 行 的 : 


R> dlPages <- function(pageurl, folder ,handle) { 

dir.create(folder, showWarnings = FALSE) 

page name <- str _c(str extract (pageurl, Ses © im) 

if (page name == "NA.html") { page name <- "/base.html" } 

if (!file.exists(str c(folder, "/", page name))) { 
content <- try(getURL(pageurl, curl = handle) ) 
write (content, str _c(folder, "/", page name) ) 
Sys.sleep (1) 


我 们 用 |_ply 执 行 下 载 操作 ， 把 保存 在 urls_list 列 表 的 元 素 里 的 文件 下 载 到 本 地 。 


R> handle <- getCurlHandle () 

R> 1 ply(urls list, dlPages, 
folder = "tp index 2010", 
handle = handle) 

R> list.files("tp index 2010") [1:3] 

[1] "base.html" "P10.html1" "P100.html1" 


共 下 载 了 60 个 文件 。 现 在 我 们 要 解析 下 载 的 索引 文件 ， 识 别 出 每 个 新 闻 公告 的 链接 。 下 面 的 getPressURLs () 函数 的 工作 原理 如 下 : & 
先 ， 把 网 页 解析 到 一 个 列表 里 。 然 后 ， 用 getHTMLLinks () 检索 网 页 中 的 所 有 链接 。 最 后 ， 只 提取 出 那些 指向 了 某 个 新 闻 公 告 的 链接 。 要 做 到 
这 件 事 ， 我 们 可 以 运用 能 唯一 识别 新 闻 公 告 的 正则 表达 式 “http.+/pressrelease/”， 并 把 它们 保存 到 一 个 列表 里 。 


R> getPressURLs <- function(folder) { 
pages parsed <- lapply(str_c(folder, "/", dir(folder)), htmlParse) 
urls <- unlist(llply(pages parsed, getHTMLLinks) ) 
press urls <- urls[str detect(urls, "http.+/pressrelease/") ] 
press urls list <- as.list (press urls) 
return(press urls list) 


调用 该 函数 之 后 ， 我 们 检索 到 一 个 列表 ， 其 中 有 150 多 个 新 闻 公 告 的 链接 。 


R> press urls list <- getPressURLs(folder = "tp index 2010") 
R> length (press urls list) 
LLI 132 


PaaS eRe TA. AARTEN TRR RAAR., E, RIEF ERRUR AAA SAM 
件 名 。 我 们 运用 了 一 个 比较 难看 的 正则 表达 式 [^W][[: alnum: ]_.]+$。 然 后 ， 用 getURL () 下 载 这 些 新 闻 公告 文件 并 把 它们 保存 到 创建 好 的 
文件 夹 里 。 


R> dlPress <- function(press url, folder, handle) { 
dir.create(folder, showWarnings = FALSE) 
press filename <- str _c(str extract (press url, 
nA Lls:alnum:] .)]4+5") , *.html") 

if (!file.exists(str c(folder, "/", press filename))) { 
content <- try(getURL(press url, curl = handle) ) 
write (content, str _c(folder, "/", press filename) ) 
Sys.sleep (1) 


a 


R> handle <- getCurlHandle () 

R> 1 ply(press_ urls list, dlPress, 
folder = "tp press 2010", 
handle = handle) 

R> length(list.files("tp press 2010") ) 

1] 152 


成 功 下 载 了 所 有 152 个 文件 。 要 处 理 这 些 新 闻 公 告 ， 我 们 应 该 像 getPressURLs () 函数 那样 解析 它们 并 提取 出 文本 。 此 外 ， 要 完成 本 节 起 
始 部 分 说明 的 任务 ， 我 们 还 需要 把 前 面 的 溺 数 广义 化 ， 对 网 站 上 新 闻 公 告 的 年 份 进行 循环 ， 但 基本 的 思路 是 不 变 的 。 


在 某 些 情况 下 ，URL 的 范围 并 不 像 前 面 描述 的 例子 里 那么 清晰 ， 我 们 就 可 以 利用 RCurl 组 件 里 的 url.exists () 函数 。 它 的 工作 方式 类 似 于 
file.exists () 冰 数 ， 会 识别 给 定 的 URL 是 否 存 在 ， 也 就 是 说 ， 服 务 器 对 指定 URL 的 响应 有 没有 出 错 。 


在 很 多 网 络 抓 取 练 习 里 ， 可 以 运用 URL 操 作 轻 松 访问 我 们 感 兴趣 的 所 有 站 点 。 这 种 对 站 点 的 访问 方式 有 个 不 足 ， 那 就 是 我 们 需要 对 该 网 站 
及 其 目录 结构 了 然 于 胸 ， 才 能 进行 URL 操 作 。 这 惑 是 说 ，URL 操 作 不 能 用 来 编写 针对 多 个 网 站 的 通用 抓 取 程序 ， 因 为 针对 每 个 站 点 都 需要 专门 的 
URL 操 作 万 法 。 


9.1.4 ”从 HTML 网 页 及 集 链接 、 列 表 和 表格 的 便利 沙 数 


XML 组 件 提供 了 解析 XML 风 格 文档 的 强大 工具 。 而 且 它 还 提供 了 更 多 命令 ， 让 网 络 抓 取 过 程 中 的 信息 提取 工作 大 为 简化 
readHTMLTable () 、readHTMLList () 和 getHTMLLinks () 这 几 个 函数 能 帮助 我 们 从 HTML 表 格 、 列 表 和 内 外 部 链接 提取 数据 。 我 们 利用 
维基 百科 上 关于 NiccoloMachiavelli (“一 位 意大利 历史 学 家 、 政 治 家 、 外 交 家 、 哲 学 家 、 人 文 主义 者 和 作家 ′， 来 自 Wikipedia 2014) 的 词 
条 来 讲解 这 些 函数 的 功能 。 


我 们 要 了 解 的 第 一 个 函数 是 getHTMLIinks () ， 它 的 作用 是 从 HTML 网 页 提取 链接 。 为 了 讲解 该 便利 函数 的 灵活 性 ， 我 们 准备 了 几 个 对 
象 。 第 一 个 对 象 (mac_url) 保 仔 了 文章 的 URL， 第 二 个 对 象 (mac_source) 保存 HTML 源 代码 ， 第 三 个 对 象 (mac_parsed) 保存 解析 后 的 文 
档 ， 第 四 个 也 是 最 后 一 个 对 象 (mac_node) 保存 的 只 是 解析 后 文档 的 一 个 节点 ， 有 具体 说 是 包含 了 介绍 文字 的 <p> 节 点 。 


R> mac_url <- "http://en.wikipedia.org/wiki/Machiavelli" 
R> mac _ source <- readLines(mac_url, encoding = "UTF-8") 

R> mac parsed <- htmlParse (mac source, encoding = "UTF-8") 
R> mac node <- mac _parsed["//p"] [[1]] 


所 有 这 些 HTML 网 页 的 表现 形式 (URL、 源 代码 、 解 析 后 的 文档 和 单个 节点 ) 都 可 以 被 用 作 getHTMLLinks () AAS 7 TARAS EFAS 
的 输入 。 


R> getHTMLLinks (mac url) [1:3] 

[1] "/w/index.php?title=Machiavelli&redirect=no" 

[2] "/wiki/Machiavelli (disambiguation) " 

[3] "/wiki/File:Portrait of Niccol%C3%B2 Machiavelli by Santi di Tito.jpg" 


R> getHTMLLinks (mac source) [1:3] 

[1] "/w/index.php?title=Machiavelli&redirect=no" 

[2] "/wiki/Machiavelli (disambiguation) " 

[3] "/wiki/File:Portrait of Niccol%C3%B2 Machiavelli by Santi di Tito.jpg" 


R> getHTMLLinks (mac parsed) [1:3] 

[1] "/w/index.php?title=Machiavelli&redirect=no" 

[2] "/wiki/Machiavelli (disambiguation) " 

[3] "/wiki/File:Portrait of Niccol%C3%B2 Machiavelli by Santi di Tito.jpg" 


R> getHTMLLinks (mac node) [1:3] 
[1] "/wiki/Help:IPA for Italian" "/wiki/Renaissance humanism" 
[3] "/wiki/Renaissance" 


我 们 也 可 以 加 入 XPath 表 达 式 来 把 返回 的 文档 限制 在 特定 的 子 集 里 ， 例 如， 只 返回 CSSclass 等 于 extiw 的 链接 。 


R> getHTMLLinks (mac source, 
xpQuery="//a[@class='extiw']/@href") [1:3] 

[1] "//en.wiktionary.org/wiki/chancery" 

[2] "//en.wikisource.org/wiki/Catholic Encyclopedia (1913) /Niccol% 

C3%B2 Machiavelli" 

[3] "//commons.wikimedia.org/wiki/Niccol%C3%B2 Machiavelli" 


getHTMLLinks () 既 能 检索 HTML 内 部 链接 ， 也 能 检索 外 部 文件 的 文件 名 。 我 们 已 经 在 9.1.1 节 使 用 到 了 第 二 个 特性 。 对 
getHTMLLinks () 的 一 个 扩展 是 getHTMLExternalFiles () ， 它 是 专门 用 来 提取 网 页 当中 指向 外 部 文件 的 链接 的 。 让 我 们 搭配 它 的 xpQuery 
参数 来 调用 这 个 函数 。 把 返回 的 结果 限定 为 其 中 提 到 了 Machiavelli 的 链接 ， 希 望 能 找 出 一 个 链接 到 一 张 图 片 的 URL。 


R> xpath <- "//img[contains(@src, 'Machiavelli')]/@src" 
R> getHTMLExternalFiles(mac_source, 
xpQuery = xpath) [1:3] 

[1] "//upload.wikimedia.org/wikipedia/commons/thumb/e/e2/Portrait 
_of Niccol%C3%B2 Machiavelli by Santi di Tito.jpg/220px-Portrait _ 
of Niccol%C3%B2 Machiavelli by Santi di Tito.jpg" 

[2] "//upload.wikimedia.org/wikipedia/commons/thumb/a/a4/ 
Machiavelli Signature.svg/128px-Machiavelli Signature.svg.png" 

[3] "//upload.wikimedia.org/wikipedia/commons/thumb/f/£3/ 

Cesare borgia-Machiavelli-Corella.jpg/220px-Cesare borgia- 
Machiavelli-Corella.jpg" 


前 三 个 结果 看 起 来 令 人 振奋 。 它 们 都 指向 了 保存 在 维基 媒体 服务 器 上 的 图 片 文 件 。 


下 一 个 便利 函数 是 readHTMLList () ， 顾 名 思 义 ， 它 能 提取 HTML 里 的 列表 元 素 (6023.75) 。 通 过 浏览 该 网 页 内 容 ， 可 以 发 现在 
Discourses on Livy 这 一 段 里 有 该 著作 的 几 段 引用 句 是 以 未 排序 列表 的 形式 组 合 在 一 起 的 ， 很 容易 把 它们 提取 出 来 。 注 意 ， 访 国 数 返回 的 是 一 个 
列表 对 象 ， 其 中 的 每 个 元 素 都 对 应 HTML 页 面 里 的 一 个 列表 。 因 为 通过 对 readHTMLList () 的 输出 进行 肉眼 观察 ， 可 以 发 现 这 些 引 用 名 是 
HTML 里 的 第 10 个 列表 ， 所 以 我 们 对 结果 使 用 了 索引 操作 符 [[10]]。 


R> readHTMLList (mac source) [[10]] [1:3] 

[1] "\"In fact, when there is combined under the same constitution 

a prince, a nobility, and the power of the people, then these three 
powers will watch and keep each other reciprocally in check. \" Book 
I, Chapter II" 

[2] "\"Doubtless these means [of attaining power] are cruel and 
destructive of all civilized life, and neither Christian, nor even 
human, and should be avoided by every one. In fact, the life of a 
private citizen would be preferable to that of a king at the expense 
of the ruin of so many human beings. \" EK I, Ch XEVI" 

[3] "\ "Now, in a well-ordered republic, it should never be necessary 


to resort to extra-constitutional measures. ...\" Bk I, Ch XXXIV" 
在 这 个 时 间 点 ,我 们 要 介绍 的 XML 组 件 的 最 后 一 个 消 数 是 readHTMLTable () . CE—NERHTMLRAIRAR. ARA AMRTEHMTL 


页 面 里 定位 表格 ， 而 且 能 把 表格 转化 为 数据 框 。 和 前 面 几 个 消 数 类 似 ， 该 函数 提取 所 有 的 表格 并 把 它们 保存 在 一 个 列表 里 。 当 提取 出 的 HTML 
表格 有 可 以 用 作 名 字 的 信息 时 ， 它 们 会 被 保存 为 市 命名 的 列表 项 。 让 我 们 先 通 过 列 出 表格 名 来 得 到 表格 的 概况 。 


R> names (readHTMLTable (mac source)) 


[1] "Niccolò Machiavelli" "NULL" "NULL" 
[4] "NULL" "NULL" "NULL" 
[7] "NULL" "NULL" "NULL" 


[10] "persondata" 


其 中 有 10 个 表格 ，2 个 有 命名 标记 。 让 我 们 提取 最 后 一 个 表格 来 检索 Machiavelli 的 个 人 信息 。 


R> readHTMLTable (mac source) spersondata 


VL V2 
1 Name Machiavelli, Niccolo 
2 Alternative names Machiavelli, Niccolo 
3 Short description Italian politician and political theorist 
4 Date of birth May 3, 1469 
5 Place of birth Florence 
6 Date of death Te 21; T527 
y Place of death Florence 


readHTMLList () 和 readHTMLTable () 的 一 个 强大 特性 是 可 以 利用 elFun 参 数 来 定义 单个 元 素 的 函数 。 默 认 情况 下 ， 分 别 应 用 到 每 个 列 
表 项 (<li>) 和 表格 的 每 个 单元 格 (<td>) 的 函数 是 xmlValue () ， 但 我 们 能 指定 把 XML 节 点 作为 参数 的 其 他 函数 。 让 我 们 利用 其 他 的 
HTML 表 格 来 演示 这 个 特性 。 该 网 页 的 第 一 个 表格 给 出 了 Machiavelli 的 个 人 信息 ， 其 中 第 7 行 和 第 8 行列 出 影响 他 的 思想 的 人 和 学 派 ， 以 及 被 他 
所 影响 的 人 和 学 派 。 


R> readHTMLTable(mac source, stringsAsFactors = F)[[1]]1[7:8, 1] 

[1] "Influenced by\nXenophon, Plutarch, Tacitus, Polybius, Cicero, 
Sallust, Livy, Thucydides" 

[2] "Influenced\nPolitical Realism, Bacon, Hobbes, Harrington, 
Rousseau, Vico, Edward Gibbon, David Hume, John Adams, Cuoco, 
Nietzsche, Pareto, Gramsci, Althusser, T. Schelling, Negri, Waltz, 
Baruch de Spinoza, Denis Diderot, Carl Schmitt" 


在 HTML 文 件 里 ， 列 出 的 哲学 家 和 学 派 的 名 字 也 链接 到 对 应 的 维基 百科 条 目 ， 但 如 果 依 赖 默 认 的 元 素 国 数 ， 这 些 信 息 就 丢失 了 。 让 我 们 用 
一 个 专门 用 来 提取 链接 的 函数 getHTMLLinks () 来 蔡 换 默认 函数 。 这 样 我 们 就 能 提取 出 影响 他 和 被 他 影响 的 思想 家 的 所 有 链接 。 
R> influential <- readHTMLTable(mac_ source, 
elFun = getHTMLLinks, 
stringsAsFactors = FALSE) [[1]] [7,] 


R> as.character (influential) [1:3] 
[1] "/wiki/Xenophon" "/wiki/Plutarch" "/wiki/Tacitus" 


R> influenced <- readHTMLTable (mac source, 
elFun = getHTMLLinks, 
stringsAsFactors = FALSE) [[1]] [8,] 
R> as.character (influenced) [1:3] 
[1] "/wiki/Political Realism" "/wiki/Francis Bacon" 
[3] "/wiki/Thomas Hobbes" 
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持 整 洁 上 的 大 量 时 间 。 


9.1.5 ”处 理 HTML 表 单 


表单 是 在 静态 网 站 上 通过 HTTP 进 行 用 户 - 服 务 器 交互 的 经 典 特性 。 它 们 的 大 小 、 布 局 、 输 入 类 型 和 其 他 参数 都 各 不 相同 ， 想 想 你 用 过 的 所 
有 搜索 框 、 按 过 的 单 选 按 钮 、 设 置 过 的 单 选 标记 、 输 入 过 的 用 户 名 和 密码 ， 等 等 。 表 单 在 像 浏 吃 器 那样 的 图 形 用 尸 界 面 里 很 容易 处 理 ， 但 是 
在 源 代码 里 分 析 它 们 束 有 点 难度 了 。 人 在 本 节 ， 我 们 会 讨论 用 R 掌 握 表 单 的 一 般 方 法 。 最 后 你 应 该 能 识别 表单 、 确 定 用 于 传递 输入 的 方法 和 信息 发 
送 的 位 置 ， 以 及 为 了 向 服务 器 友 送 数据 并 获取 结果 ， 应 该 如 何 指定 选项 和 参数 。 


在 本 节 ， 我 们 会 讨论 三 个 不 同 的 例子 ， 学 习 如 何 准 备 好 你 的 R 会 话 、 处 理 表 单 的 总 体 方法 、 使 用 HTTP GET 方 法 把 表单 友 送 到 服务 器 、 使 用 
POS [方法 配合 url-encoded 或 multipart 正 文 ， 以 及 让 R 自 动产 生 使 用 GET 或 POST 方法 及 配套 选项 友 送 表单 数据 的 函数 。 


在 浏览 器 里 填写 表单 和 在 R 里 处 理 表 单 在 很 多 方面 都 有 所 不 同 ， 因 为 大 部 分 通常 由 浏览 器 在 后 台 进 行 的 工作 在 R 里 必须 明确 指定 。 使 用 浏览 
器 ， 我 们 可 以 : 


1) 填写 表单 。 

2) 操 击 提交 、 确 定 、 开 始 或 点 赞 等 按钮 。 

3) 由 浏览 器 执行 在 表单 源 代码 里 指定 的 动作 ， 并 将 数据 友 送 到 服务 器 。 
4) 在 服务 器 处 理 完 输入 后 ， 由 浏览 器 接受 返回 的 资源 。 

在 网 络 抓 取 实践 中 ， 事 情 吏 变 得 更 加 复杂 一 些 。 我 们 必须 : 

1) 识别 涉及 的 表单 。 

2) 确定 用 于 传输 数据 的 万 法 。 


3) 确定 友 送 数据 的 地 址 。 


4) 确定 友 运 的 输入 信息 。 
5) 创建 一 个 合法 的 请 求 并 将 其 友 送 出 去 。 
6) 处 理 返 回 的 资源 。 


在 本 节 ， 我 们 会 用 到 来 自 RCurl|、XML、stringr 和 plyr 组 件 的 函数 。 此 外 ， 我 们 要 指定 一 个 对 象 记 录 执 行 过 程 中 的 调试 信息 ， 这 样 在 出 错 的 
时 候 就 可 以 检查 细节 情况 (详情 请 参见 5.4.3 节 ) 。 另 外 ， 我 们 要 指定 一 个 cur|l 名 柄 ， 它 带 有 一 组 默认 选项 : cookiejar 用 于 开局 cookie 管 
理 ，followlocation 用 于 进行 页 面 跳 转 〈 可 能 是 由 POST 命令 触发 的 ) ， 以 及 autoreferer 在 进行 跳 转 时 用 于 设置 请 求 标 头 字段 Referer。 最 后 ， 
我 们 手工 指定 From 和 User-Agent 标 头 字段 ， 以 保持 身份 可 识别 : 


R> info <- debugGatherer () 


R> handle <- getCurlHandle(cookiejar = te, 

followlocation = TRUE, 

autoreferer = TRUE, 

debugfunc = infoSupdate, 

verbose = TRUE, 

httpheader = List { 
from = "eddie@r-datacollection.com", 
'user-agent' = str _c(R.version$version.string, 


" = R.versionsplatform) 


) ) 


另 一 个 准备 步骤 是 定义 一 个 把 XML 属性 列表 转化 为 数据 框 的 函数 。 当 我 们 要 分 析 解 析 后 的 HTML 网 页 中 的 表单 元 素 的 属性 时 ， 这 个 函数 融 
会 很 管用 。 我 们 构建 的 这 个 函数 叫 xmlAttrsToDF () ， 它 有 两 个 参数 。 第 一 个 参数 提供 一 个 解析 后 的 HTML 网 页 ， 第 二 个 则 指定 我 们 需要 采集 
属性 的 节点 的 XPath 表达 式 。 该 函数 通过 xpathApply () 和 xmlAttrs () 提取 节点 的 属性 ， 并 把 结果 列表 转化 为 数据 框 ， 而 且 要 保持 属性 名 不 
丢失 ， 每 个 属性 值 保 存在 单独 的 一 列 里 : 


R> xmlAttrsToDF <- function(parsedHTML, xpath) { 
x <- xpathApply (parsedHTML, xpath, xmlAttrs) 
x <- lapply(x, function(x) as.data.frame (t (x) ) ) 
do.call(rbind.fill, x) 


9.1.5.1 通过 GET 方 法 控制 表单 


为 了 示范 处 理 表单 的 方法 ， 尤 其 是 需要 用 HTTP GET 方 法 处 理 的 表单 ， 我 们 会 用 到 WordNet。WordNet 是 普林斯顿 大 学 提供 的 一 个 服务 ， 
网 址 是 http://wordnetweb.princeton.edu/perMwebwn。 普 林 斯 顿 的 研究 者 构建 了 英语 名 词 、 动 词 和 形容 词 的 同义词 数据 库 。 他 们 把 这 些 数 
据 作 为 在 线 服务 提供 出 来 了 。 该 站 点 基于 一 个 HTML 表 单 来 获取 参数 并 发 送 同 义 词 的 请 求 ， 更 多 细节 请 参见 Princeton University (2010a) , 
许可 情况 请 参见 Princeton University (2010b) 。 


让 我 们 浏览 该 页 面 ， 输 入 一 个 单词 ， 如 data。 操 击 Search WordNet 按 钮 会 使 URL 友 生 改 变 ， 现 在 它 包 含 13 个 参数 。 


http: //wordnetweb.princeton.edu/perl/webwn?s=data&sub=Search+ 


WordNet &02=&00=1&08=1&01=1&07=&05=£&09=&06=&03 =£04=&h= 





我 们 已 经 被 重 定向 到 另 一 个 页 面 ， 该 页 面 告知 我 们 data 是 一 个 名 词 ， 它 在 语义 上 有 两 个 从 义 。 


当 提 交 我 们 的 搜索 条 件 时 ，URL 后 面 扩展 了 一 个 查询 字符 串 ， 从 这 一 事实 可 以 推断 ， 该 表单 使 用 了 HTTP GET 方 法 向 服务 器 友 送 数据 。 不 过 
让 我 们 核实 一 下 这 个 结论 。 这 里 简单 地 回顾 一 下 第 2 章 里 的 相关 知识 : HTML 表 单 是 利用 <form> 节 点 及 其 属性 声明 的 。<form> 节 点 的 属性 定 


MT SGM SP mR See RNS, <input> TREE <form> pre, EMS PREHRA, 


我 们 可 以 利用 浏览 器 的 “查看 源 代码 ”特性 来 查看 表单 节点 的 属性 ， 也 可 以 用 R 来 获取 这 些 信 息 。 这 次 我 们 利用 后 一 种 方法 。 首 先 ， 把 页 面 
加 载 到 R 里 并 解析 它 。 


R> url <- "http://wordnetweb.princeton.edu/perl/webwn" 
R> html form <- getURL(url, curl = handle) 
R> parsed form <- htmlParse (html form) 


让 我 们 看 一 下 表单 六 点 属性 ， 了 解 向 服务 器 友 达 数据 的 具体 设置 。 我 们 利用 之 前 为 这 个 工作 设置 好 的 xmlAttrsToDF () . 


R> xmlAttrsToDF (parsed form, "//£orm") 
method action enctype name 

aE get webwn multipart/form-data f 

2 get webwn multipart/form-data change 


页 面 上 有 两 个 HTML 表 单 ， 一 个 叫 f， 另 一 个 叫 change。 第 一 个 表单 把 搜索 条 件 提交 到 服务 器 ， 而 第 二 个 表单 负责 提交 关于 返回 数据 的 类 型 
和 范围 的 其 他 选项 。 为 简单 起 见 ， 我 们 会 忽略 第 二 个 表单 。 


关于 发 送 数据 的 具体 设置 ， 属 性 值 会 告诉 我 们 应 该 利用 HTTP 的 GET ( 见 method 列 ) 方法 ， 并 把 数据 发 送 到 webwn ( 见 action 列 ) ， 它 是 
我 们 刚才 下 载 和 解析 的 表单 的 动作 位 置 。 不 过 ，enctype 参 数 及 其 值 multipart/form-data 出 现 得 有 点 意外 。 它 代表 了 请 求 正 文中 内 容 的 编码 方 
式 。 因 为 明确 指定 的 GET 并 不 会 利用 请 求 正文 来 传输 数据 ， 所 以 我 们 可 以 忽略 这 个 选项 。 


下 一 个 任务 是 获取 输入 参数 的 列表 。 当 使 用 GET 方 法 发 送 数据 时 ， 通 过 查看 添加 到 URL 的 查询 字符 串 ， 我 们 就 能 够 轻松 认 出 发 送 给 服务 器 的 
人 参数。 不过， 这 些 参 数 可 能 只 是 所 有 可 能 参数 的 一 个 子 集 而 已 。 因 此 ， 我 们 再 次 利用 xmlAttrsToDF () 来 获取 表单 中 输入 及 其 属性 的 完整 集 


R> xmlAttrsToDF (parsed form, "//form[1] /input") 


type name maxlength value 
t text S 500 <NA> 
2 submit sub <NA> Search WordNet 
3 hidden o2 <NA> 
4 hidden o0 <NA> 1 
5 hidden o8 <NA> a 
6 hidden ol <NA> 1 
7 hidden o7 <NA> 
8 hidden o5 <NA> 
9 hidden o9 <NA> 
10 hidden o6 <NA> 
11 hidden o3 <NA> 
12 hidden o4 <NA> 
13 hidden h <NA> 


和 第 一 次 搜索 条 目 后 看 到 URL 后 面 添加 的 长 查询 字符 串 所 揭示 的 规律 一 样 ， 我 们 这 里 也 得 到 了 一 个 由 13 个 输入 节点 组 成 的 列表 。 回 顾 一 
下 ， 在 页 面 上 只 有 一 个 输入 项 ， 也 就 是 指定 搜索 条 目的 文本 框 。 对 输入 的 查看 表明 ， 有 11 个 输入 项 是 hidden 类 型 的 ， 也 丈 是 用 户 不 能 直接 操作 
的 输入 项 。 此 外 ，submit 类 型 的 输入 项 也 是 对 用 户 操作 隐藏 的 ， 所 以 只 剩 下 1 个 参数 需要 我 们 关注。 原来， 其 他 参数 是 用 于 向 服务 器 发送 选项 
的 ， 与 实际 搜索 曲 无 关系 。 要 创建 简单 的 搜索 请 求 ，s 参 数 融 足 够 了 。 


把 有 关 HTTP 方 法 、 请 求 位 置 和 参数 的 信息 组 合 起 来 ， 现 在 我 们 就 可 以 利用 RCurl 的 一 个 表单 遂 数 来 创建 合适 的 请 求 。 因 为 发 送 数据 到 服务 
器 的 HTTP 方 法 是 GET， 我 们 束 正 好 使 用 getForm () 函数 。 既 然 友 送 请 求 的 位 置 和 前 面 例子 里 是 一 样 的 ,我们 丈 可 以 重复 使 用 之 前 用 过 的 


URL。 对 于 参数 ， 


人 
只 给 


s 参 数 提供 一 


六 和 我 们 想 要 获取 同义词 的 查询 项 相等 的 值 (也 就 是 把 上 例 中 的 查询 词 data 用 作 s 参 数 的 值 ) 。 


R> html form_res <- getForm(uri = url, curl = handle, s = "data") 
R> parsed form res <- htmlParse(html form res) 

R> xpathApply (parsed form res, "//1i", xmlValue) 

HEAR 

[1] "S: (n) data, information (a collection of facts from which 
conclusions may be drawn) \"statistical data\"" 


EIB 
[1] "S: (n) datum, data point (an item of factual information 
derived from measurement or research) " 


查看 通过 debugGatherer () 阔 数 保 仔 在 info 对 象 里 的 调试 信息 ， 从 中 观察 我 们 提供 的 标 头 信息 ， 并 在 之 后 重 置 info 对 象 。 


R> cat (str split (info$value() ["headerOut"], "\r") [[1]]) 

GET /perl/webwn HTTP/1.1 

Host: wordnetweb.princeton.edu 

Accept: */* 

from: eddie@r-datacollection.com 

user-agent: R version 3.0.2 (2013-09-25), x86 64-w64-mingw32 


GET /perl/webwn?s=data HTTP/1.1 

Host: wordnetweb.princeton.edu 

Accept: */* 

from: eddie@r-datacollection.com 

user-agent: R version 3.0.2 (2013-09-25), x86 64-w64-mingw32 
R> infoSreset () 


我 们 上 发现 ， 获 取 表 单 信息 的 请 求 和 友人 送 表 单数 据 的 请 求 几乎 是 相同 的 ， 除 了 在 后 者 的 情况 下 有 个 ”s=data 字 符 串 被 加 到 了 请 求 资 源 的 后 


通过 提供 一 个 添加 了 查询 字符 串 的 URL 并 调用 getURL () ， 也 可 以 达到 同样 的 效果 : 


R> url <- "http://wordnetweb.princeton.edu/perl/webwn?s=data" 
R> html form res <- getURL(url = url, curl = handle) 


9.1.5.2 ”以 POST 方法 提交 表单 


利用 HTTP 的 POST 方法 的 表单 与 使 用 GET 方 法 的 表单 在 很 多 方面 都 是 一 样 的 。 两 种 方法 之 间 关 键 的 差别 在 于 ， 在 POST 方式 下 ， 信 息 是 在 请 
求 正文 里 传输 的 。 在 正文 里 传输 数据 有 两 种 常见 风格 ， 或 者 作为 url-encoded， 或 者 作为 multipart。 前 者 对 于 文本 数据 效率 较 高 ， 而 后 者 则 更 
适合 发 送 文件 。 因 此 ， 根 据 表单 的 用 途 可 以 确定 用 哪 一 种 风格 的 POST。 下 面 会 讲解 如 何在 实际 应 用 中 处 理 POST 表 单 。 第 一 个 例子 涉及 的 是 一 
个 url-encoded 正 文 ， 而 第 二 个 则 示范 了 如 何 友 送 multipart 数 据 。 


POST 搭 配 url-encoded 正 文 ” 在 第 一 个 例子 里 ,我们 使 用 来 自 http://read-able.com/ 的 一 个 表单 。 该 网 站 提供 了 一 个 评价 网 页 和 文本 可 
读 性 的 服务 。 照 例 ， 我 们 使 用 预先 编写 的 curl 句 柄 来 检索 页 面 并 直接 解析 并 保存 它 。 


R> url <- "http://read-able.com/" 
R> form <- htmlParse(getURL(url = url, curl = handle) ) 


对 <form> 节 点 的 查找 结果 表明 ， 页 面 里 有 两 个 表单 。 再 查看 一 下 站 点 源 代码 ， 友 现 第 一 个 是 用 于 根据 URL 评 估 对 应 网 页 的 可 读 性 ， 而 第 二 
个 表单 允许 直接 输入 文本 。 


R> xmlAttrsToDF(form, "//form") 
method action 

1 get check .php 

2 post check .php 


在 第 二 个 表单 的 属性 里 没有 指定 enctype， 所 以 我 们 估计 服务 器 对 两 种 编码 风格 都 是 可 以 接受 的 。 因 为 url-encoded 正 文 对 于 文本 数据 更 高 


效 ， 所 以 用 这 种 风格 来 友 送 数据 。 


查看 第 二 个 表单 的 输入 项 可 以 看 出 ， 除 了 提交 按钮 ， 似 乎 没有 其 他 的 输入 。 


R> xmlAttrsToDF(form, "//form[2]//input") 


通过 查看 表单 的 完整 源 代 码 ， 我 们 发 现 有 个 textarea 节 点 可 以 采集 要 发 送 给 服务 器 的 文本 。 


R> xpathApply(form, "//form[2]") 
[ [1] ] 


<form method="post" action="check.php"> 


<p class="instructions"> 
<label title="Paste 
a complete (HTML) Document here" for="directInput">Enter text to 
check the readability:</label><br /><textarea id="directInput" 
name="directInput" rows="10" cols="60"></textarea> 


HTML is allowed - it 
will be stripped from the text. 
</p> 


<p> 
<input type="submit" 


value="Calculate Readability" /></p> 
</form> 


attr(,"class") 
[1] "XMLNodeSet" 


这 个 textarea 节 点 的 name 属 性 值 是 directInput， 发 送 文 本 时 它 会 作为 参数 名 。 让 我 们 用 在 http://www.goodreads.com/ 找 到 的 一 段 关 于 


数据 的 名 言 来 检查 其 可 读 性 。 


服 


R> sentence <- "\"It is a capital mistake to theorize before one has 
data. Insensibly one begins to twist facts to suit theories, instead 
of theories to suit facts.\" -- Arthur Conan Doyle, Sherlock Holmes" 


我 们 把 它 发 送 给 read-able 服 务 器 进行 评估 。 在 调用 postForm () 时 ， 我 们 设置 style 为 “POST” ， 从 而 让 数据 以 url-encoded 方 式 传输 到 


务 器 。 


R> res <- postForm(uri = str_c(url, "check.php"), 


curl = handle, 
style = "POST", 
directInput = sentence) 


大 部 分 结果 都 以 类 似 HTML 表 格 的 形式 显示 如 下 。 


R> readHTMLTable (res) 
S'NULL' 


Flesch Kincaid Reading Ease 66.5 

1 Flesch Kincaid Grade Level 6.6 
2 Gunning Fog Score 6.8 
3 SMOG Index 5 
4 Coleman Liau Index 11.4 
5 Automated Readability Index 5.7 
$ ' NULL ' 

No. of sentences 3 
1 No. of words 32 
2 No. of complex words 2 
3 Percent of complex words 6.25% 


4 Average words per sentence 10.67 
5 Average syllables per word 1.53 


总体 而 言 ， 根 据 它 得 到 的 6.6 分 评级 (Flesch Kincaid Grade Level) ，12~13 岁 的 小 孩 应 该 都 能 理解 夏 洛克 ` 福 尔 摩 斯 的 这 名 格言。 让 我 们 
查看 一 下 友 送 到 服务 器 的 标 头 信息 。 


R> cat (str split (info$value() ["headerOut"], Ve) (CITI) 

GET / HTTP/1.1 

Host: read-able.com 

Accept: */* 

from: eddie@r-datacollection.com 

user-agent: R version 3.0.2 (2013-09-25), x86 64-w64-mingw32 


POST /check.php HTTP/1.1 

Host: read-able.com 

Accept: */* 

from: eddie@r-datacollection.com 

user-agent: R version 3.0.2 (2013-09-25), x86 64-w64-mingw32 
Content-Length: 277 

Content-Type: application/x-www-form-urlencoded 


从 第 二 个 标 头 可 以 确认 数据 是 通过 POST 方 法 发 送 的 ， 用 url-encoded 编 码 的 正文 如 下 所 示 。 纪 


R> cat (str split (info$value() ["dataOut"], a) EEL) 
directInput=%221t%20is%20a%20capitalS20mistake%20to%20theorize%20 
before%200ne%20has%20data%2E%20Insensibly%200ne%20begins%20to0%20 
twist%20facts%20to%20suit%20theories%2C%20instead%200£fS20theories%20 
tos20suits20facts%2E422%20%2D%2D%2 0Arthur%20Conan%20Do0yle%2C%20 
Sherlock%20Holmes 


R> infoSreset () 


POST 搭配 multipart 编 码 的 正文 ”第 二 个 例子 要 讲解 POST 搭配 multipart 编 码 的 正文 。Fix Picture (http://www.fixpicture.org/) 是 一 个 
能 把 图 片 文件 从 一 种 格式 转换 成 另 一 种 的 Web 服 务 。 本 例 中 会 把 一 张 图 片 从 PNG 格 式 转换 为 PDF 格式 。 


让 我 们 先 检索 一 张 PNG 格 式 的 图 片 并 把 它 保存 在 磁盘 上 。 


R> url <- "r-datacollection.com/materials/http/sky.png" 
R> sky <- getBinaryURL(url = url, curl = handle) 
R> writeBin(sky, "sky.png") 


下 一 步 ， 采 集 Fix Picture 的 主页 ， 包 括 其 中 的 HTML 表 单 。 


R> url <- "http://www.fixpicture.org/" 
R> form <- htmlParse (getURL (url = url, curl = handle) ) 


然后 查看 该 表单 节点 的 属性 。 


R> xmlAttrsToDF(form, "//form") 
name id action method enctype 
1 form form resize.php?LANG=en post multipart/form-data 


我 们 发 现在 页 面 上 只 有 一 个 表单 。 该 表单 会 以 POST 方法 搭配 multipart 编 码 的 正文 发 送 数据 。 可 用 的 输入 清单 会 很 长 ， 因 为 我 们 不 仅 可 以 
转换 图 片 的 格式 ， 还 可 以 对 图 片 进行 翻转 、 旋 转 、 限 定 为 灰 度 图 ， 或 选择 新 格式 的 质量 。 为 简单 起 见 ， 我 们 把 所作 限定 在 从 一 种 格式 到 另 一 种 
格式 的 简单 转换 。 


R> xmlAttrsToDF(form, "//input") [1:2, c("name", "type", "class", "value") ] 
name type class value 

1 image file upload-file <NA> 

2 <NA> image btn submit <NA> 


这 里 ， 重 要 的 输入 是 图 片 对 应 的 image 节 点 。 从 这 个 <input> 节 点 的 class 属 性 里 的 upload-file 值 可 以 看 出 ， 我 们 是 在 该 名 字 对 应 的 节点 中 
提供 文件 的 内 容 。 


这 里 没有 看 到 选择 输出 文件 格式 的 输入 节点 。 从 源 代码 可 以 看 出 ， 表 单 里 包含 了 一 个 select 节 点 。select 元 素 支 持 从 多 个 作为 option 节 点 提 
供 的 选项 里 进行 选择 : 


R> xmlAttrsToDF(form, "//select") 
onchange id name 
1 changeSelect() format format 


select 节 点 的 hame 属 性 表明 ， 在 该 名 字 (format) 下 的 值 是 在 option 节 点 里 列 出 的 ， 应 该 发 送 给 服务 器 。 


R> xmlAttrsToDF(form, "//select/option") 
value 

jpeg 

png 

GLEE 

pdf 

bmp 

gif 


NUP WD Pp 


忽略 掉 其 他 所 有 可 能 的 选项 ， 我 们 现在 已 经 准备 好 把 数据 和 参数 一 起 友 送 给 服务 器 了 。 为 了 让 RCurl 组 件 读 取 文件 并 发 送 到 服务 器 ， 我 们 必 
须 使 用 Rcurl 的 fileUpload () 消 数 ， 它 会 负责 为 底层 的 libcurl 库 提供 正确 的 信息 。 下 面 的 代码 片段 就是 用 来 友 送 数据 到 服务 器 的 。 


R> res <- postForm(uri = "http://www.fixpicture.org/resize.php?LANG=en", 
image = fileUpload(filename = "sky.png", 
contentType = "image/png"), 
format = "pdf", 


curl = handle) 


结果 并 不 是 转换 后 的 文件 本 身 ， 而 是 另 一 个 HTML 页 面 ， 我 们 可 以 从 它 当 中 的 链接 提取 出 文件 。 


R> doc <- htmlParse (res) 
R> link <- str_c(url, xpathApply(doc, "//a/@href", as.character) [[1]]) 


我 们 可 以 下 载 转换 后 的 文件 并 将 其 写 入 本 地 磁盘 驱动 器 。 


R> resImage <- getBinaryURL(link, curl = handle) 
R> writeBin(resImage, "sky.pdf", useBytes = TRUE) 


结果 是 PNG 格 式 的 图 片 转换 成 了 PDF 格 式 。 至 少 我 们 可 以 通过 POST 友 送出 去 的 数据 查看 multipart 本 身 : 


R> cat (str split (infoSvalue() ["dataOut"], an} R 

me eet ee err nee mine meric a e e e e e 30059d14e820 

Content-Disposition: form-data; name="image"; filename="sky.png" 
Content-Type: image/png 


[ [BINARY DATA] ] 
---------------------------- 30059d14e820 


Content-Disposition: form-data; name="format" 


~--------------------------- 30059d14e820-- 


[[BINARY DATA]] 卢 段 代表 了 无 法 通过 文本 进行 适当 显示 的 二 进 制 数据 。 最 后 ， 再 次 重 置 info 对 象 。 


R> infoSreset ( ) 


9.1.5.3 ”表单 处 理 的 自动 化 一 一 RHTMLForms 组 件 


我 们 在 上 一 段 介绍 的 工具 可 以 进行 修改 ， 并 用 于 处 理 特定 的 表单 交互 需求 。 它 的 一 个 不 足 之 处 是 ， 应 对 不 同 的 交互 需要 很 多 人 工 介 入 和 查 
看 源 代码 。 把 其 中 一 些 必要 步骤 变 成 自动 化 的 尝试 之 一 是 RHTMLForms 组 件 (Temple Lang et al.2012) 。 它 的 设计 思想 是 自动 创建 函数 ， 让 
它 能 填写 表单 、 选 择 向 服务 器 发 送 数据 的 适当 HTTP 方 法 并 检索 结果 。RHTMLForms 组 件 没 有 放 在 CRAN 上 。 你 可 以 通过 指定 资源 库 的 位 置 来 安 


Be Ce 


R> install.packages("RHTMLForms", repos = "http://www.omegahat.org/R", 
type = "source") 
R> library (RHTMLForms) 


RHTMLForms 的 基本 工作 流程 如 下 : 


Non 


1) 对 HTML 表 单 所 在 的 URL 调 用 getHTMLFormDescription () ， 并 将 结果 保存 在 一 个 对 象 里 ， 给 它 命名 为 forms。 
2) 对 forms 对 象 的 第 一 个 元 素 调 用 createFunction () ， 并 将 结果 保存 到 另 一 个 名 为 form_function 的 对 象 里 。 

3) formFunction () 把 输入 字段 作为 选项 ， 把 它们 发 送 到 服务 器 并 返回 结果 。 

再 用 WordNet 把 这 个 过 程 尝 斌 一遍。 我 们 要 先 采 集 表单 描述 信息 并 创建 表单 滔 数 。 


Rs url <- "http://wordnetweb.princeton.edu/perl/webwn" 
R> forms <- getHTMLFormDescription (url) 
R> formFunction <- createFunction(forms[[1] ] ) 


创建 表单 浮 数 formFunction () 之 后 ,我 们 束 可 以 利用 它 向 服务 器 发 送 表单 数据 并 获取 结果 。 


R> html form res <- formFunction(s = "data", .curl = handle) 
R> parsed form res <- htmlParse(html form res) 

R> xpathApply (parsed form res,"//1li", xmlValue) 

[ [1]] 


[1] "S: (n) data, information (a collection of facts from which 
conclusions may be drawn) \"statistical data\"" 


Arip 
[1] "S: (n) datum, data point (an item of factual information 


derived from measurement or research) " 


让 我 们 得 看 一 下 刚刚 创建 好 的 函数 。 


R> args (formFunction) 


function (s = "", 
.url = "http://wordnetweb.princeton.edu/perl/webwn", 
.reader = NULL, 
.formDescription = list(formAttributes = c( 
TOREN 
"http://wordnetweb.princeton.edu/perl/webwn", 
"multipart/form-data", 


ae aa oe 
elements = list ( 

s = list(name = "s", 

nodeAttributes = c("text", "s", "500"), 
defaultValue = ""), 

o2 = list(name = "02", value = "" ), 

o0 = list (name = "o0", value = "1"), 

o8 = list (name = "08", value = "1"), 

ol = list (name = "o1", value = "1"), 

o7 = list(name = "o7", value = "" ), 

o5 = list(name = "05", value = "" ), 

o9 = list (name = "09", value = "" ), 

o6 = list(name = "06", value = "" ), 

o3 = list(name = "03", value = "" ), 

o4 = list (name = "04", value = "" ), 

h = list(name = "h" , value = "" )), 
url = "http://wordnetweb.princeton.edu/perl/webwn") , 
.opts = structure (list ( 

referer = "http://wordnetweb.princeton.edu/perl/webwn"), 
.Names = "referer"), 


.curl = getCurlHandle(), 
.cleanArgs = NULL) 


里 然 它 咎 一 眼看 上 去 有 点 吓人 ， 但 它 实 际 上 比 看 上 去 的 样子 更 简单 ， 因 为 大 部 分 的 选项 都 是 用 于 内 部 的 。 选 项 是 自动 设置 的 ， 我 们 可 以 忽 
略 它们 : .reader、.formDescription、elements、.url、url 和 .cleanArgs。 我 们 已 经 熟悉 了 其 中 一 些 选 项 ， 如 .curl 和 .opts。 实 际 上 ， 在 查看 前 
面 对 formFunction () 的 调用 时 ， 你 会 注意 到 里 面 照常 使 用 了 同一 个 curl 句 柄 ，info 对 象 的 更 新 也 成 功 了 。 那 是 因为 在 这 些 函 数 的 面纱 之 后 ， 
所 有 的 请 求 都 是 通过 RCurl 的 函数 getForm () 和 postForm () 进行 的 ， 所 以 我 们 可 以 期 尾 .opts 和 .curl 的 作用 以 及 在 用 于 纯 Rcurl 函 数 时 是 一 
样 的 。 


最 后 一 套 选 项 是 我 们 要 填写 并 发 送 给 服务 器 的 输入 名 。 在 我 们 的 例子 里 ，createFunction () 准确 地 把 o0 到 o8 以 及 h 识 别 为 不 需要 用 户 操 
作 的 输入 。elements 参 数 保存 了 它们 的 默认 值 ， 但 是 相 比 其 中 保存 查询 条 件 s 的 输入 ，createFunction () 却 没有 给 formFunction () 创建 能 
够 指定 00、o1 等 取 值 的 参数 ， 这 是 因为 它们 对 于 POST 命 令 并 非 必要 。 


RHTMLForms 组 件 看 起 来 似乎 极 大 地 简化 HTML 表 单 的 交互 。 虽 然 我 们 确实 节省 了 某 些 实际 编码 的 工作 ， 但 是 要 能 与 表单 交互 ， 还 是 会 
求 我 们 非常 熟悉 表单 。 这 就 是 说 ， 如 果 你 不 了 解 表 单 里 的 输入 输出 类 型 ， 就 很 难 有 效 地 与 之 进行 交互 。 


9.1.6 HTTP 身份 验证 


在 互联 网 上 ， 并 非 所 有 地 方 都 是 对 所 有 人 开放 的 。 我 们 在 5.2.2 节 已 经 了 解 ，HTTP 提 供 了 限制 非 授权 用 户 访问 内 容 的 身份 验证 技术 ， 具 体 说 
是 基本 和 摘要 身份 验证 。 要 在 R 里 进行 基本 身份 验证 ， 利 用 RCurl 组 件 是 直截了当 的 。 


作为 一 个 简短 的 例子 ， 我 们 尝试 访问 位 于 www.r-datacollection.com/materials/solutions 的 “solutions” 单 元 PI。 当 在 浏览 器 里 尝试 访 
问 这 个 资源 时 ， 我 们 碰 到 了 一 个 登录 表单 ( 见 图 9-1) 。 在 R 里 ， 我 们 可 以 利用 libcurl 的 userpwd 选 项 把 用 户 名 和 密码 传递 给 服务 器 。Base64 编 


码 会 被 自动 用 到 这 个 请 求 里 。 


R> url <- "www.r-datacollection.com/materials/solutions" 
R> cat(getURL(url, userpwd = "teacher:sesame", followlocation = TRUE) ) 
solutions coming soon 








ee ee ek, i 
'www.r-datacollection.con x W | 





x fi www.r-datacollection.com/solutions 


Authentication Required 


The server http://www.r-datacollection.com:80 requires a 
username and password. The server says: 
rdatacollectionsolutions. 


UserName: teacher 


Password: ******| 

















图 9-1 在 http://www.fdatacollection.comy/matetials/solutions 上 的 HITP 身 份 验证 弹出 窗口 的 截屏 
Userpwd 选 项 也 能 用 于 摘要 身份 验证 ， 而 且 我 们 不 必 手 工 处 理 随 机 数 、 算 法 或 哈 希 码 一 一 |ibcurl 本 身 就 能 应 付 这 些 事情 。 


为 了 避免 在 代码 里 保存 密码 ， 把 密码 存放 在 .Rprofile 文 件 里 是 很 方便 的 ， 因 为 R 会 在 每 次 启动 时 自动 读 取 它 (参见 Nolan and Temple 
Lang 2014, p.295) 。 


R> options (RDataCollectionLogin = "teacher:sesame") 


我 们 可 以 通过 getOption () 检索 并 使 用 该 密码 。 


R> getURL(url, userpwd = getOption("RDataCollectionLogin"), 
followlocation = TRUE) 


9.1.7 ”通过 HTTPS 进 行 的 连接 


安全 传输 协议 HTTPS (参见 5.3.1 节 ) 变 得 越 来 越 常 匈 。 为 了 通过 HTTPS 从 服务 器 检索 内 容 ， 我 们 可 以 依赖 于 支持 SSL 连 接 的 
libcurl/RCurl。 实 际 上 ， 我 们 不 需要 关心 太 多 加 密 和 SSL 协 商 的 细节 ， 因 为 libcurl| 默 认 会 在 后 台 对 它们 进行 处 理 。 


让 我 们 来 讨论 一 个 例子 。 位 于 密 西 根 大 学 的 政治 和 社会 研究 校 际 联盟 (The Inter-university Consortium for Political and Social 


Research, ICPSR) 提供 了 对 海量 社会 科学 存档 数据 的 访问 。 我 们 只 是 对 其 中 很 小 的 一 部 分 感 兴趣 ， 即 某 些 关于 调查 变量 的 元 信息 。 

在 https://www.icpsr.umich.edu/icpsrweb/ICPSR/ssvd/search，ICPSR 提 供 了 对 于 变量 的 分 类 检索 功能 。 搜 索 栏 让 我 们 能 指定 变量 标签 、 问 
题 文 字 或 分 类 标签 ， 并 返回 一 批 市 有 信息 片段 的 结果 。 这 个 页 面 之 所 以 成 为 了 一 个 合适 的 例子 ， 是 因为 它 必须 通过 HTTPS 访 问 ， 正 如 浏 史 器 里 
的 URL 所 反映 的 那样 。 原 则 上 说 ， 通 过 HTTPS 连 接 到 网 站 的 简单 方式 如 下 : 


R> url <- "https://www.icpsr.umich.edu/icpsrweb/ICPSR/ssvd/search" 
R> getURL (url) 

Error: SSL certificate problem, verify that the CA cert is OK. 
Details: 

error:14090086:SSL routines:SSL3 GET SERVER CERTIFICATE:certificate 
verify failed 


设置 一 个 成 功 的 连接 看 起 来 并 不 总 是 那么 简单 直接 。 这 里 的 错误 信息 表明 ， 服 务 器 上 由 可 信和 的 认证 机 构 (CA) 签发 的 证 书 (这 是 证 明 该 服 
务 器 身份 所 必需 的 ) 无 法 验证 。 这 种 错误 有 可 能 表明 该 服务 器 不 应 该 被 信任 ， 因 为 它 无 法 提供 其 身份 的 合法 证 明 。 不 过 ， 在 本 书 这 个 情况 里 ， 
出 现 这 个 错误 的 原因 是 不 一 样 的 ， 我 们 可 以 很 容易 纠正 这 个 问题 。 在 通过 HTTPS 连 接 服务 器 的 时 候 ，libcur| 尝 试 做 的 事情 是 访问 本 地 存储 的 CA 
签名 库 ， 以 此 来 验证 服务 器 的 第 一 次 响应 。 在 某 些 系统 里 (包括 我 们 的 系统 ) libcurl 在 本 地 硬盘 里 查找 相关 文件 (cacert.pem) 时 会 遇 到 困 
难 。 因 此 ， 我 们 必须 手工 指定 该 文件 的 路 径 ， 并 通过 cainfo 参 数 把 它 传递 给 数据 采集 消 数 。 我 们 既 可 以 提供 浏 览 器 保存 证 书库 的 目录 ， 也 可 以 
使 用 RCurl 安 装 时 自 带 的 证 书 文件 。 


R> Signatures = system.file("CurlSSL", cainfo = "cacert.pem", 
package = "RCurl1") 
R> res <- getURL(url, cainfo = signatures) 


除 此 之 外 ， 我 们 也 可 以 更 新 CA 根 证 书 的 包 。 当 前 的 一 个 版 本 可 以 在 http://curl.haxx.se/ca/cacert.pem 找 到 。 如 果 服 务 器 证 书 仍然 不 能 验 
证 成 功 ， 我 们 可 以 i 上 libcurl 根 本 不 去 尝试 验证 服务 器 证 书 。 这 是 通过 设置 ssl.verifypeer 参 数 实现 的 (参见 Nolan 和 Temple Lang 
2014, p.300) 。 


R> res <- getURL(url, ssl.verifypeer = FALSE) 


如 果 服 务 器 实际 上 并 不 值得 信任 ,这样 做 残 会 有 潜在 的 风险 。 毕 竟 ， 为 与 经 过 验证 的 服务 器 建立 安全 连接 提供 手段 ， 束 是 HTTPS 的 主要 用 


回 到 前 面 的 例子 ， 我 们 来 查看 一 下 用 于 查询 ICPSR 数 据 的 GET 表 单 。 从 action 参 数 可 以 看 出 GET 指 向 的 是 /icpsrweb/ICPSR/ssvd/ 待 查 的 变 
量 。 相 关 的 <input> 元 素 有 variableLabel、questionText 和 categoryLabel。 我 们 在 u_action 里 重新 指定 目标 URL， 并 设置 一 个 curl 句 柄 。 它 保 
仔 了 CA 签名 ， 并 可 以 用 于 多 个 请 求 。 最 后 我 们 构造 一 个 对 getForm () 的 调用 ， 搜 索 在 标签 里 包含 了 'climate change’ (气候 变化 ) 的 问题 ， 
并 从 查询 中 提取 出 结果 的 数量 。 


R> url action <- "https://www.icpsr.umich.edu/icpsrweb/ICPSR/ssvd/ 


variables?" 
R> handle <- getCurlHandle(cainfo = signatures) 
R> res <- getForm(url action, 
variableLabel = "climate+change", 
gquestionText = "", 
categoryLabel = "", 
curl = handle) 


R> str extract (res, "Your query returned [[:digit:]]+ variables") 
[1] "Your query returned 263 variables" 


这 是 一 个 对 我 们 搜索 结果 的 最 小 化 评估 。 我 们 可 以 很 容易 地 针对 这 个 问题 提取 出 更 多 信息 ， 也 可 以 查询 其 他 具体 的 问题 。 


9.1.8 使 用 cookie 


cookie 用 来 让 HTTP 服 务 器 可 以 再 次 识别 客户 端 ， 因 为 HTTP 本 身 是 无 状态 协议 ， 它 会 将 每 次 请 求 和 响应 的 交换 都 视 为 首次 进行 (参见 5.2.1 
P) 。 利 用 RCurl 及 其 底层 的 libcurl 库 ， 在 R 中 进行 cookie 管 理 是 相当 简单 的 。 我 们 需要 做 的 就 是 启用 它 并 让 它 在 多 个 请 求 中 保持 正常 运行 ， 配 
套 使 用 一 个 curl 句 柄 。 而 在 合适 的 时 间 设 置 并 上 友 送 合适 的 cookie， 都 是 在 后 台 管 理 的 。 


在 本 节 ， 我 们 要 依赖 于 来 自 RCurl、XML 和 stringr 组 件 里 有 关 HTTP 客 户 端 支持 、HTML 和 解析 、XPath 查 询 以 及 便利 文本 操作 的 遂 数 。 此 
外 ， 我 们 还 要 创建 一 个 info 对 象 ， 用 来 记录 我 们 的 客户 端 及 其 连接 的 服务 器 之 间 信 息 交 换 的 日 志 信 息 。 我 们 还 要 创建 一 个 在 本 节 使 用 的 句柄 。 


R> info <- debugGatherer () 
R> handle <- getCurlHandle(cookiejar = Be, 
followlocation = TRUE, 


autoreferer = TRUE, 

debugfunc = infoSupdate, 

verbose = TRUE, 

httpheader = Hat 
from = "eddie@r-datacollection.com", 
'user-agent' = str_c(R.version$Sversion.string, 


"3 ", R.versionSplat form) 


) ) 





本 节 最 重要 的 选项 是 句柄 里 的 第 一 个 参数 cookiejar=""。 只 要 声明 了 cookiejar 选 项 ， 即 使 没有 给 jar (也 就 是 一 个 保存 cookie 信 息 的 地 
方 ) 指定 文件 和 名， 也 能 让 该 句柄 启动 cookie 管 理 。 后 面 两 个 选项 (followlocation 和 autoreferer) 属于 那 种 没有 也 行 、 有 了 更 好 的 选项 ， 它 们 
能 及 时 处 理由 于 重 定 向 到 其 他 资源 而 可 能 产生 的 问题 。 


在 R 里 使 用 cookie 的 总 体 方法 是 依赖 于 RCur| 的 cookie 管 理 功 能 ， 它 会 在 连续 的 请 求 中 重复 使 用 已 激活 cookie 管 理 的 句柄 ， 如 前 例 所 示 。 
9.1.8.1 回 在 线 购 物 车 添加 商品 


在 实践 中 ， 昌 然 最 有 可 能 需要 cookie 支 持 的 是 访问 需要 登录 的 网 页 ， 但 下 面 的 例子 示范 了 Biblio 在 线 书店 购物 车 的 cookie。 这 个 网 页 是 专 
门 查找 并 购买 二 手 、 珍 稀 及 绝版 书籍 的 。 


浏览 http://www.biblio.comysearch.phpy?keyisbn=data 并 把 一 些 书 放 进 购物 车 。 为 简单 起 见 ， 添 加 到 URL 后 面 的 查询 字符 串 已 经 提交 了 
以 data 为 关键 字 的 书籍 查询 。 每 次 通过 点 击 add to cart 按 钮 选中 一 本 书 放 入 购物 车 ， 我 们 都 会 重 定向 到 购物 车 
(http://www.biblio.com/cart.php) 。 我 们 可 以 返回 到 搜索 页 面 ， 选 择 另 一 本 书 并 加 入 购物 车 里 。 


为 了 在 R 里 复制 这 个 表单 ， 我 们 首先 定义 指向 搜索 结果 页 面 (search_url) 的 URL， 以 及 指向 购物 车 页 面 (cart_url) 的 URL， 以 备 使 用 。 


R> search url <- "www.biblio.com/search.php?keyisbn=data" 
R> cart url <- "www.biblio.com/cart.php" 


下 一 步 ,， 我 们 要 下 载 搜索 结果 页 面 ， 然 后 把 它 直 接 解析 并 保存 天 search_page。 


R> search page <- htmlParse(getURL(url = search_url, curl = handle) ) 


PO INS ao HTM La TAY. 


R> xpathApply (search page, "//div[@class='order-box'] [position() <2] / 
form") 
LL] 
<form class="ob-add-form" action="http://www.biblio.com/cart.php" 
method="get"> 

<input type="hidden" name="bid" value="652559100" /> 

<input type="hidden" name="add" value="1" /> 

<input type="hidden" name="int" value="keyword search" /> 

<input type="submit" value="Add to cart" class="add-cart-button" 
title="Add this item to your cart" onclick="_gaq.push([' trackEvent', 
'cart search add', 'relevance', '1']);" /> 
</form> 


attr ("class") 
[1] "XMLNodeSet" 


我 们 还 要 提取 出 书 的 ID， 然 后 把 商品 加 入 购物 车 里 。 


R> xpath <- "//div[@class='order-box'] [position() <4] /form/input 
[@name='bid'] /@value" 

R> bids <- unlist(xpathApply(search page, xpath, as.numeric) ) 
R> bids 

[1] 652559100 453475278 468759385 


现在 ， 我 们 要 通过 向 服务 器 及 送 必要 的 信息 (bid. addffint) ， 把 来 自 搜 索 结果 页 面 的 前 三 个 商品 加 入 购物 和 车。 注意 ， 通 过 cur| 选 项 把 同 
一 个 句柄 传递 给 请 求 ， 我 们 残 自 动 把 挡 收 到 的 cookie 加 到 我 们 的 请 求 里 。 


R> for (i in seq along(bids)) { 
res <- getForm(uri = cart url, curl = handle, bid = bids[il, 
add = 1, int = "keyword search") 


} 


最 后 ， 我 们 可 以 检索 购物 车 并 查看 已 经 保存 的 商品 。 


R> cart <- htmlParse(getURL(url = cart url, curl = handle) ) 
R> clean <- function(x) str_replace all(xmlValue(x), "(\t)|(\n\n)", "") 
R> cat (xpathSApply(cart, "//div[@class='title-block']", clean) ) 


DATA 

by Hill, Anthony (ed) 

Developing Language Through Design and Technology 
by DATA 

Guide to Design and technology Resources 

by DATA 


正如 我 们 所 料 ， 购 物 车 里 有 三 个 商品 。 再 次 分 析 一 下 在 请 求 里 友人 送 及 从 服务 器 接收 的 标 头 。 我 们 首先 提交 了 一 个 不 包含 任何 cookie 的 请 


R> cat (str split (info$value() ["headerOut"], "\r") [[1]] [1:13]) 


GET /search.php?keyisbn=data HTTP/1.1 

Host: www.biblio.com 

Accept: */* 

from: eddie@r-datacollection.com 

user-agent: R version 3.0.2 (2013-09-25), x86 64-w64-mingw32 


服务 器 的 响应 提示 要 设置 两 个 cookie， 其 中 一 个 叫 vis， 另 一 个 叫 variation。 
R> cat (str split (info$value() ["headerIn"], “ay f DELI eee) 


HTTP/1.1 200 OK 

Server: nginx 

Date: Thu, 06 Mar 2014 10:27:23 GMT 

Content-Type: text/html; charset=UTF-8 

Transfer-Encoding: chunked 

Connection: keep-alive 

Keep-Alive: timeout=60 

Set-Cookie: vis=language%3Ade%7Ccountry%3A6%7Ccurrency%3A9%¢7Cvisitor 
S$3AVrCZ...; expires=Tue, 05-Mar-2019 10:27:21 GMT; path=/; 
domain=.biblio.com; httponly 

Set-Cookie: variation=res a; expires=Fri, 07-Mar-2014 10:27:21 GMT; 
path=/; domain=.biblio.com; httponly 

Vary: User-Agent ,Accept-Encoding 

Expires: Fri, 07 Mar 2014 10:27:23 GMT 

Cache-Control: max-age=86400 

Cache-Control: no-cache 


客户 端 用 一 个 新 的 请 求 作为 响应 ， 请 求 里 现在 包含 那 两 个 cookie。 


R> cat (str split (info$value() ["headerOut"], "\r") [[1]] [1:13]) 


GET /cart.php?bid=652559100&add=1&int=keyword%5Fsearch HTTP/1.1 
Host: www.biblio.com 

Accept: */* 

Cookie: variation=res a; vis=language%3Ade%7Ccountry%3A6%7Ccurrency 
$3A9%7CvVisitors3AVrCZz... 

from: eddie@r-datacollection.com 

user-agent: R version 3.0.2 (2013-09-25), x86 64-w64-mingw32 


如 果 没 有 提供 cookie， 则 购物 车 保持 空 的 状态 。 下 面 一 个 请 求 和 前 面 的 请 求 是 一 样 的 : 我 们 使 用 了 同一 个 处 理 器 和 代码 ， 而 这 次 使 用 
cookielist="ALL" 来 重 置 所 有 已 收集 的 cookie。 


R> cart <- htmlParse(getURL(url = cart url, curl = handle, 
cookielist = "ALL") ) 


R> clean <- function(x) str_replace all(xmlValue(x), "(\t)|(\n\n)", "") 
R> cat (xpathSApply(cart, "//div[@class='title-block']", clean) ) 


结果 ， 购 物 车 返回 的 状态 是 空 的。 因为 没有 cookie， 服 务 器 就 无 从 知道 迄今 为 止 友 生 了 哪些 行为 〈 例 如 ， 向 购物 车 加 入 商品 ) 。 


9.1.8.2 EZANA 


前 面 采 用 的 方法 定义 并 使 用 一 个 开启 了 cookie 管 理 的 句柄 ， 让 RCurl 和 libcurl 负 责 HTTP 通 信 的 其 他 细节 一 一 在 大 部 分 情况 下 是 管用 的 。 不 
过 ， 有 时 候 需 要 对 细节 有 更 多 的 控制 。 下 面 我 们 会 探讨 如 何 用 RCurl 处 理 cookie 的 某 些 附加 特性 。 


在 9.1.8.1 节 ， 我 们 已 经 声明 了 cookiejar="" 以 激活 上 自动 化 的 cookie 省 理 。 如 果 给 该 选项 提供 了 一 个 文件 名 ， 如 cookiejar="cookies.txt"， 
那么 每 当 通 过 句柄 或 curlSetOpt () 对 某 个 RCurl 函 数 声明 cookielist= "FLUSH "选项 时 ， 所 有 的 cookie 都 会 保存 在 这 个 文件 里 。 


R> handle <- getCurlHandle(cookiejar = "cookies.txt") 

R> res <- getURL("http://httpbin.org/cookies/set?k1l=v1&k2=v2", 
curl = handle) 

R> handle <- curlSetOpt(cookielist = "FLUSH", curl = handle) 


一 个 cookie 文 件 的 例子 如 下 所 示 : 


R> readLines ("cookies.txt") 

[1] "# Netscape HTTP Cookie File" 

[2] "# http://curl.haxx.se/rfc/cookie spec.html1" 

[3] "# This file was generated by libcurl! Edit at your own risk." 
[a] ™* 

[5] "httpbin.org\tFALSE\t/\tFALSE\t0\tk2\tv2" 

[6] "httpbin.org\tFALSE\t/\tFALSE\t0\tk1\tv1" 


我 们 可 以 利用 该 文件 中 的 信息 ， 通 过 cookiefile 选 项 获取 一 组 初始 的 cookie。 


R> new handle <- getCurlHandle(cookiefile = "cookies.txt") 


除了 把 收集 到 的 cookie 写 入 一 个 文件 ， 我 们 也 可 以 通过 cookielist= "ALL "看 清 迄 今 为 止 收集 的 Cookie 清 单 。 


R> getURL("http://httpbin.org/cookies", curl = new handle, 
cookielist = "ALL") 


eae \"cookies\": {\n akale; WA tn \"ki\": \"v1\" n 


最 后 但 也 同样 重要 的 是 ， 昌 然 RCurl 和 |libcur| 能 可 靠 地 处 理 通过 HTTP 设 置 的 cookie， 但 如 果 该 cookie 是 通过 其 他 技术 (如 JavaScript) iz 
置 的 ， 还 是 有 必要 手工 提供 某 些 cookie。 我 们 可 以 通过 给 cookie 选 项 提供 cookie 内 容 的 准确 规格 进行 设置 。 


R> getURL("http://httpbin.org/cookies", cookie = "name=Eddie;age=32") 
[1] "{\n \"cookies\": {\n \"name\": \"Eddie\", \n \"age\": 


\"32\"\n }\n}* 


9.1.9 ”利用 Selenium/Rwebdriver 从 AJAX 增 强 的 网 页 抓 取 数 据 


我 们 在 第 6 章 里 已 经 看 到 ， 当 一 个 站 点 运用 了 动态 数据 请 求 的 方法 (特别 是 通过 XHR 对 象 ) 时 ,访问 网 页 里 的 特定 信息 有 可 能 会 受阻 。 我 们 
示 学 了 在 特定 情况 下 ， 这 类 问题 可 以 通过 使 用 浏览 器 的 Web 开 友 者 工具 进行 克服 ， 通 过 开 友 者 工具 我 们 可 以 友 现 AJAX 增 强 页 面 获取 信息 的 目标 
源 。 不 幸 的 是 ， 这 种 方法 并 不 能 为 所 有 涉及 动态 数据 请 求 的 提取 问题 提供 广泛 适用 的 解决 方案 。 原 因 之 一 是 源 代码 不 一 定 能 像 在 我 们 讲解 的 形 
象 化 例子 里 那样 容易 看 清楚 ， 而 是 需要 对 相应 的 代码 进行 费时 费力 的 分 析 ， 还 需要 具备 关于 JavaScript 和 XHR 对 象 相 当 深 入 的 知识 。 另 一 个 让 这 
种 方法 变 得 不 可 行 的 问题 是 ，AJAX 往 往 不 是 直接 访问 特定 数据 源 ， 而 只 是 和 中 间 的 服务 器 端 脚本 (如 PHP) 进行 交互 。PHP 支 持 分 析 查 询 并 同 
数据 库 (例如 ，MySQL 数 据 库 ， 参 见 第 7 章 ) 友人 送 请 求 ， 然 后 把 返回 的 数据 提供 给 AJAX 回 调 函 数 并 放 进 DOM 树 里 。 实 际 上 ， 这 样 的 方法 会 隐 
藏 目 标 数据 源 ， 并 使 对 它 的 直接 访问 无 法 进行 。 


TEATS, RIISMAA PN De a AS FP IIR UA TAMARA. CAESARS: EIAs, Te 
过 直接 把 它们 纳入 抓 取 过 程 ， 充 分 利用 它们 解释 执行 JavaScript 和 和 实时 变更 DOM 树 的 能 力 。 本 质 上 ， 这 就 意味 着 所 有 和 网 页 的 通信 会 经 过 一 个 
浏 晚 器 会 话 进行 导向 ， 我 们 发 送 和 接受 信息 都 是 通过 这 个 浏览 器 会 话 进行 的 。 有 很 多 程序 都 支持 这 样 的 方法 。 在 这 里 ， 我 们 介绍 的 是 用 于 浏 哟 
器 自动 化 处 理 的 Selenium/Webdriver 框 架 (Selenium Project 2014a, b) ， 以 及 它 通 过 Rwebdriver 组 件 在 R 里 的 实现 。 我 们 先 提出 在 一 个 实 
际 例子 里 产生 的 问题 。 然 后 继续 讲解 Selenium/Webdriver 背 后 的 基本 概念 ， 解 释 如 何 安装 Rwebdriver 组 件 ， 并 演示 如 何 直接 从 R 命 令 行 把 命令 
导向 到 浏览 器 。 利 用 实际 例子 ， 我 们 会 讨论 它们 的 实现 方法 ， 以 及 我 们 如 何 将 它们 运用 到 网 络 抓 取 中 。 


9.1.9.1 案例 分 析 : 联邦 政治 献金 数据 库 


作为 一 个 实际 例子 ， 我 们 尝试 从 一 个 关于 给 美国 政党 和 候选 人 提供 资助 的 数据 库 里 获取 数据 。 这 些 数 据 最 初 是 由 OpenSecrets.org 采 集 并 
在 无 限制 许可 证 下 发 布 的 (Center for Responsive Politics 2014) 。 该 数据 的 一 份 样本 已 经 被 存 入 我 们 的 数据 库 ， 可 以 在 http://r- 
datacollection.com/materials/selenium/dbQuery.html 访 问 到 。 照 例 ， 我 们 先 尝 试 了 解 页 面 的 结构 及 其 请 求 并 处 理 相 关 信 息 的 方式 。 我 们 用 
来 进行 这 项 工作 的 工具 是 6.3 节 介绍 过 的 浏览 器 内 置 Web 开 发 者 工具 。 让 我 们 顺序 进行 下 列 步骤 : 


1) 打开 一 个 新 浏览 器 窗口 并 访问 http://r-datacollection.com/materials/selenium/dbQuery.html。 在 你 的 Web 开 发 者 工具 的 Network 
标签 你 应 该 能 看 到 打开 页 面 的 操作 触 友 了 对 另外 3 个 文件 的 请 求 : 包含 了 前 端 HTML 代 码 和 辅助 的 JavaScript 代 码 的 dbQuery.html，jQuery 库 文 
件 jgquery-1.8.0.min.js， 以 及 一 个 样式 表 文 件 bootstrap.css。 页 面 的 视觉 显示 应 该 是 类 似 于 图 9-2 所 示 的 界面 。 


2) 从 下 拉 菜 日 里 选择 输入 值 并 点 击 提交 按钮 。 点 击 之 后 ， 你 的 Network 标 签 应 该 指定 对 一 个 叫 
getEntry.php? y=2013&m=01&r=&p=&t=T 或 类 似 名 字 的 文件 的 请 求 ， 具 体 名 字 取 决 于 你 选择 的 值 。 


3) 再 到 页 面 视图 去 看 一 下 ， 确 定 是 否 有 个 HTML 表 格 在 页 面 的 下 端 被 创建 出 来 了 。 虽 然 这 个 表格 信息 的 来 源 未 必 和 直观 明显 ， 但 通 单 对 PHP 
文件 的 请 求 都 会 用 来 从 后 端的 MySQl 数据 库 提 取信 息 ， 利 用 在 URL 里 传输 的 参数 - 值 配对 来 构造 对 数据 库 的 查询 条 件 。 这 样 会 让 提取 工作 复杂 
化 ， 因 为 我 们 没有 所 需 的 访问 信息 ， 通 常 不 可 能 直接 和 数据 库 交 互 ， 只 能 局 限于 对 从 PHP 文 件 获取 的 输出 进行 处 理 。 


Federal Contributions Database 


DB Query 


Year: 2013 


Recipient: 


Party: 
© Republican 
© Democrat 


Type: 
@ Table 
QO Visualization 





图 9-2 ”联邦 政治 献金 数据 库 


9.1.9.2 Selenium 和 Rwebdriver 组 件 


selenium/Webdriver 是 一 个 开源 的 软件 套件 ， 它 的 主要 用 途 是 提供 一 致 的 跨 平 台 框 杂 ， 用 于 测试 在 本 地 浏览 器 运行 的 应 用 。 人 在 Web 应 用 
的 开 友 过 程 中 ， 测 试 对 于 创建 符合 预期 的 应 用 功能 、 尽 量 减 少 潜在 的 安全 和 可 用 性 问题 ， 以 及 在 用 户 沅 量 激增 时 保证 可 靠 性 等 方面 是 必需 的 。 
在 Selenium 问 世 之 前 ， 这 类 测试 工作 是 手工 进行 的 ， 也 是 一 项 烦 珊 和 易 出 错 的 工作 。 通 过 对 如 点 击 、 滚 动 、 滑 动 和 文本 输入 的 浏览 器 行为 提供 
控制 方法 ，Selenium 很 好 地 解决 了 这 些 问题 。 它 通过 利用 脚本 语言 表现 用 尸 的 一 系列 行为 并 报告 应 用 出 错 的 情况 ， 为 解决 这 类 问题 提供 了 程序 
化 的 方法 。 


AR 
#4 Æ 5 


除了 用 在 测试 上 ，selenium 通 过 浏览 器 控制 与 网 页 交互 的 能 力也 有 更 多 通用 的 用 途 。 因 为 它 广 持 对 浏览 器 进行 遥控 ， 我 们 就 可 以 操作 实时 
DOM 树 (也 就 是 在 浏览 器 窗口 中 视觉 显示 的 方式 ) 并 直接 从 中 请 求 信 息 。 通 过 Rwebdriver 组 件 可 以 从 R 里 调用 selenium 的 功能 。 该 组 件 可 以 
从 一 个 GitHub 代 码 库 里 获取 ， 并 可 以 通过 devtools 组 件 的 install github () 函数 进行 安装 (Wickham and Chang 2013) 。 


R> library (devtools) 
R> install github(repo = "Rwebdriver", username = "crubba") 


初试 Selenium Webdriver 使 用 Selenium 需 要 初始 化 Selenium Java Server。 该 服务 器 负责 浏览 器 的 启动 和 关闭 ， 以 及 接收 并 解释 浏览 
器 命令 。 从 编程 环境 里 和 服务 器 的 通信 和 是 通过 简单 的 HTTP 消 息 进行 的 。 要 让 Selenium 服 务 器 启动 运行 ， 需 要 先 
从 http://docs.seleniumhq.org/download/ 把 服务 器 文件 下 载 到 本 地 文件 系统 。 服 务 器 文件 遵循 固定 的 命名 惯例 (selenium-server- 


standalone-<version-number>.jar) 。[ 为 了 初始 化 服务 器 ， 需 要 打开 系统 命令 行 ， 转 到 该 jar 文 件 的 目录 所 在 位 置 ， 并 执行 该 文件 。 


| cd Rwebdriver/ 


i) 


java -jar selenium-server-standalone-2.39.0.jar 





控制 台 输 出 应 该 类 似 于 在 图 9-3 显 示 的 输出 内 容 。 现 在 服务 器 已 经 初始 化 并 在 等 待命 令 。 现 在 可 以 把 系统 命令 窗口 最 小 化 ， 让 我 们 把 注意 力 
回 到 R 控 制 台 。 在 这 里 ， 我 们 首先 加 载 Rwebdriver 和 和 XML 组 件 。 


ol 


r-standalone-2. 39. 0. j 


.2014 20:34:54 org.openga.grid.selenium.GridLauncher main 

: Launching a standalone server 

:00.597 INFO - Java: Apple Inc. 20.51-b01-457 

:00.598 INFO - OS: Mac OS X 10.8.4 x86_64 

:00.607 INFO - v2.39.0, with Core v2.39.0. Built from revision ff23eac 

:00.666 INFO - Default driver org.openga.selenium.ie.InternetExplorerDriver r 
egistration is skipped: registration capabilities Capabilities [{platform=wINDOWwS, 
ensureCleanSession=true, browserName=internet explorer, version=}] does not match 
with current platform: MAC 
INFO - RemoteWebDriver instances should connect to: http://127.0.0.1: 


20:35:00.730 
4444/wd/hub 

20:35:00.731 
20:35:00.732 


: 00.732 
: 00.733 
: 00.808 
: 00.809 
: 00.817 
: 00.818 


R> library (Rwebdriver) 


INFO 
INFO 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


R> library (XML) 


Version 
Started 


Started 
Started 
Started 
Started 
Started 
Started 





Jetty/5.1.x 
HttpContext [/selenium-server/driver,/selenium-server/d 


HttpContext [/selenium-server, /selenium-server] 
HttpContext[/,/] 
org.openga.jetty.jetty.servlet.ServletHandler@21b64e6a 
HttpContext [/wd, /wd] 

SocketListener on 0.0.0.0:4444 
org.openga.jetty.jetty.Servere@3s96febf4 


图 9-3 ”初始 化 Selenium Java Server 


第 一 步 是 创建 一 个 新 的 浏览 器 窗口 。 这 可 以 通过 start_session () 函数 完成 ， 该 函数 需要 传递 Selenium Java Server 的 地 址 (默认 
gehttp://localhost: 4444/wd/hub/) 。 此 外 ， 我 们 把 firefox 传 递 给 browser 人 参数 ， 告 诉 服务 器 要 产生 的 是 一 个 Firefox 浏 览 器 窗口 。 


R> start session(root = "http://localhost:4444/wd/hub/", browser = 


EEC | 


一 旦 该 命令 航 执 行 ， 


Selenium API 就 会 打开 一 个 新 的 Firefox 窗 口 ， 现 在 就 可 以 把 浏览 器 请 求 导向 到 这 个 窗口 。 


把 Selenium 用 于 网 络 抓 取 ”现在 我 们 返回 实际 例子 并 探索 Selenium 的 某 些 功能 。 注 意 ， 我 们 不 会 介绍 该 组 件 的 所 有 功能 ， 而 是 重点 关注 在 
网 络 抓 取 流 程 中 最 音 用 的 函数 。 要 得 看 其 中 实现 方法 的 完整 清单 ， 请 参见 表 9-1。 


表 9-1 Selenium 方法 概况 (v.0.1) 


start session () 创建 一 个 新 的 会 话 
quit session() pt 天 闭会 话 
status () ”| 查询 服务 器 当前 的 状态 
(组 ) 
命令 输 由 
active sessions |) | ”| 检索 活跃 会 话 中 的 信息 
Pest .url() url 打开 新 的 url 
get .url () 从 当前 网 页 获取 URL 


element find() 
element xpath find() 
element ptext find() 
element css find() 


element click() 


by. vlaue 
value 
value 
value 


ID. time. button 


通过 by 方法 和 value 值 查找 元 素 

查找 对 应 XPath FIF value WILK 
查找 对 应 文本 字符 串 value 的 元 素 

查找 对 应 CSS 选择 器 字符 串 value 的 元 素 


wit ID JUR 


element clear () ID 清空 ID 元 素 的 文本 域 中 输入 的 值 
page back () times 向 后 返回 一 个 页 面 

page forward () times 回 前 翻 一 个 页 面 

page refresh () 刷新 当前 页 面 

page source () 接收 HTML 源 代码 

page title() 接受 网 页 的 标题 字符 串 

window handle () 返回 活 牙 窗口 的 句柄 


window handles () 
window change () 
window close () 
get window size() 


post window size() 


handle 
handle 
handle 
size, handle 


handle 


返回 当前 会 话 的 所 有 窗口 句柄 

把 焦点 改 到 市 有 handle 句柄 的 窗口 
关闭 市 有 handle 句柄 的 窗口 

返回 当前 窗口 大 小 的 向 量 

为 handle 窗口 发 布 新 的 窗口 大 小 size 
返回 市 有 handle 句柄 的 窗口 的 x、?7 坐标 


get .window position 1() 
改变 市 有 handle 人 句柄 的 窗口 的 坐标 
产生 键盘 输入 的 term {A 


post window position() position, handle 


key terms 


假定 我 们 希望 通过 位 于 http://www.r-datacollection.com/materials/selenium/intro.html 的 入 口 页 面 访问 数据 库 。 要 引导 浏览 器 到 一 个 
特定 的 页 面 ， 我 们 可 以 利用 post.url () 搭配 特定 的 url 参 数 。 


R> post.url(url = "http://www.r-datacollection.com/materials/ 
selenium/intro.html1" 


w 


浏览 器 应 该 会 响应 并 显示 这 个 入 口 网 页 。 当 一 个 网 页 会 让 浏览 器 转向 到 另 一 个 网 页 时 ， 获 取 当 前 浏览 器 的 URL 会 是 有 帮助 的 ， 因 为 它 可 能 
会 和 在 查询 项 里 指定 的 不 一 样 。 我 们 可 以 通过 get.url () 命令 获取 当前 浏览 器 URL 信 息 。 


R> get .url () 


[1] "http://r-datacollection.com/materials/selenium/intro.html" 


返回 的 输出 是 一 个 标准 的 字符 向 量 。 要 提取 出 浏览 器 窗口 的 页 面 标题 ， 我 们 可 以 利用 page title () . 


R> page title() 
[1] "The Federal Contributions Database" 


要 转 到 查询 数据 库 的 表单 ， 我 们 需要 对 右 下 角 的 enter 按 钮 进行 一 次 点 击 。 通 过 selenium 进 行 点 击 需要 两 步 。 第 一 步 ， 我 们 需要 为 该 按钮 
元 素 创 建 一 个 标识 符 (ID) 。selenium 人 允许 通 过 多 种 方法 指定 这 样 一 个 标识 符 。 因 为 我 们 已 经 知道 如 何 处 理 XPath 表 达 式 (参见 第 4 章 ) ， 所 
以 就 采用 这 种 方法 。 通 过 使 用 Web 开 发 者 工具 ， 我 们 可 以 得 到 如 下 针对 该 按钮 元 素 的 XPath 表达 式 : /html/body/div/div[2]/form/input, 4 
我 们 把 这 个 XPath 表达 式 作 为 字符 串 传 递 给 element xpath_find () 函数 的 时 候 ， 从 实时 DOM 融 返回 了 对 应 的 元 京 ID。 让 我 们 继续 把 该 ID 保 
存在 一 个 名 为 buttonl1D 的 新 对 象 里 。 


R> buttonID <- element xpath find(value = "/html/body/div/div [2] / 
form/input") 


第 二 步 ， 实 际 执 行 对 指定 元 素 的 左 键 点 击 。 对 于 这 项 任务 ， 我 们 可 以 利用 element click () 并 把 button1D 作 为 ID 参数 传递 给 它 。 
R> element click(ID = buttonID) 


这 个 操作 会 使 浏览 器 上 的 网 页 改 成 图 9-2 显 示 的 那个 页 面 。 此 外 ， 你 可 能 会 注意 到 点 击 按钮 后 有 一 个 弹出 窗口 打开 了 。 这 个 弹出 窗口 的 出 现 
产生 了 一 些 复杂 性 ， 因 为 它 会 导致 Selenium 把 焦点 从 它 的 激活 窗口 转移 到 这 个 新 打开 的 弹出 窗口 。 要 把 焦点 返回 到 数据 库 页 面 ， 我 们 需要 首先 
利用 window_handles () 获取 所 有 活动 窗口 的 句柄 。 


R> allHandles <- window handles () 


要 让 焦点 转 回 到 数据 库 窗 口 ， 你 可 以 利用 window_change () 函数 ， 并 给 它 传递 对 应 正确 窗口 的 窗口 句柄 。 在 这 里 例子 里 ， 它 就 是 
allHandles 里 的 第 一 个 元 素 。! 人 1 


R> window change (allHandles [1] ) 


既然 已 经 访问 到 了 数据 库 页 面 ， 我 们 就 可 以 开始 从 中 查询 信息 了 。 让 我 们 尝试 提取 从 2013 年 1 月 开始 的 给 Barack Obama 提 供 的 政治 献金 
记录 。 为 了 完成 这 一 任务 ， 我 们 修改 了 Month 字 段 的 值 。 同 样 ， 这 需要 获取 Month 输 入 字段 的 ID。 我 们 从 Web 开 发 者 工具 可 以 得 知 ， 以 下 
XPath 表达 式 (对 于 年 份 字段 ) 是 合适 的 : ′A*[@id= “yearSelect”] 。 同 时 ,我们 也 要 保存 月 份 和 献金 接受 者 的 文本 字段 的 ID。 


R> yearID <- element xpath find(value = '//*[@id="yearSelect"] ') 
R> monthID <- element xpath find(value = '//* [@id="monthSelect"] ') 
R> recipID <- element xpath find(value = '//* [@id="recipientSelect"] ') 


为 了 修改 年 份 ， 我 们 通过 执行 element click () 并 搭配 合适 的 ID 参数 ， 对 年 份 输入 字段 进行 一 次 鼠标 点 击 。 
R> element click (yearID) 


下 一 步 ， 我 们 需要 把 要 填写 的 键盘 输入 传递 给 数据 库 字 段 。 因 为 我 们 感 兴趣 的 是 从 2013 年 开始 的 记录 ， 所 以 利用 keys () 函数 处 理 设置 为 
正确 值 的 第 一 个 参数 。 


R> keys ("2013") 


(BRL, BARS RAL TEE. |! 


R> element click (monthID) 
R> keys ("January") 

R> element click (recipID) 
R> keys ("Barack Obama") 


现在 我 们 可 以 通过 对 submit 按 钮 的 点 击 把 上 述 查 询 条 件 上 友和 送 给 数据 库 。 同 样 ， 我 们 首先 利用 XPath 指定 该 按钮 ， 并 把 响应 的 ID 元 素 传递 给 
FATE RAEN. 


R> submitID <- element xpath find(value = '//* [@id="yearForm"] 
/div/button') 
R> element click (submitID) 


这 个 动作 应 该 会 导致 在 页 面 底部 显示 一 个 新 的 HTML 表 格 。 为 了 获取 这 个 信息 ,我们 可 以 从 实时 DOM 树 中 提取 底层 的 HTML 人 代码， 并 在 代 
码 中 搜索 表格 元 素 。 


R> pageSource <- page source () 
R> moneyTab <- readHTMLTable (pageSource, which = 1) 


通过 对 最 后 一 个 处 理 步 又 进行 儿 次 重复 ， 可 以 把 相关 信息 转变 成 一 个 可 显示 的 格式 。 


R> colnames(moneyTab) <- c("year", "name", "party", "contributor", 
"State", "amount") 

R> moneyTab <- moneyTab[-1, | 

R> head (moneyTab) 


year name party contributor state amount 
2 2013 Barack Obama D ROBERTS, GARY TX -50 
3 2013 Barack Obama D TOENNIES, MICHAEL MR CO fs 
4 2013 Barack Obama D PENTA, NEELAM NY -100 
5 2013 Barack Obama D VALENSTEIN, JILL NY rt E 
6 2013 Barack Obama D SPRECHER KEATING, KAREN DC -100 
7 2013 Barack Obama D FISCHER, DAMIEN CA =20U 


结束 语 ATTRA MAME SIZ BIT AN RAMI LEB SAR E. ERA, Selenium sy —MEABITERR, LAR 
处 理 动 态 泻 染 网 页 的 万 法 ， 这 些 动态 网 页 是 基于 简单 HTTP 的 万 法 所 无 法 处 理 的 。 应 该 牢记 的 是 ， 这 种 灵活 性 也 是 有 代价 的 ， 因 为 浏览 嚣 本身 需 
要 时 间 来 接收 请 求 、 处 理 请 求 并 泻 染 页 面 。 这 样 有 可 能 让 提取 过 程 明显 变 慢 ， 因 此 我 们 提醒 用 户 只 能 把 Selenium 用 于 没有 其 他 适合 工具 的 任 
务 。 我 们 常常 友 现 Selenium 最 有 用 的 地 方 是 表达 多 个 页 面 之 间 的 变换 以 及 对 浏览 器 窗口 友 布 点 击 和 键盘 命令 ,但 是 一 旦 遇 到 固定 的 URL， 为 了 
速度 ， 我 们 融会 切换 回 乙 前 讲解 的 基于 R 的 HTTP 方 法 。 


除了 Rwebdriver 组 件 ， 还 有 一 个 名 为 Relenium 的 组 件 ， 它 和 本 章 介绍 的 组 件 相似 (Ramon 和 de Villa 2013) 。 虽 然 Relenium 提 供 了 比 
Selenium 服 务 器 更 简单 直接 的 初始 化 流程 ， 截 止 到 本 书 编写 的 时 候 ， 它 具备 的 功能 还 更 有 限 一 些 。 


9.1.10 ”从 API 检 索 数 据 


我 们 已 经 在 介绍 XML、JSON 和 其 他 基础 知识 的 时 候 附 带 提 到 了 APIl。 总 体 而 言 ，APl 包 含 的 是 让 程序 员 可 以 把 他 们 的 软件 和 “其 他 东 
西 ”连接 起 来 的 工具 。 它 们 在 编写 依赖 于 外 部 软件 或 硬件 的 软件 时 很 有 用 ， 因 为 它 让 开 友 者 不 必 深 入 外 部 软件 或 硬件 的 细 证 中 。 


当 在 本 书 中 讨论 API 的 时 候 ， 我 们 指 的 是 Web 服 务 或 (Web) API， 也 就 是 Web 应 用 的 接口 。 我 们 把 “API” 和 “web service” 两 个 术语 
视 为 同义词 ， 虽 然 AP1 这 个 术语 包括 了 大 得 多 的 软件 主题 。APl| 之 所 以 对 网 络 数据 采集 工作 非常 重要 ， 是 因为 越 来 越 多 的 Web 应 用 提供 了 支持 检 
索 和 处 理 数据 的 APl。 在 Web 2.0 时 代 ，Web API 为 很 多 应 用 提供 了 基础 ， 随 着 它 的 崛起 ， 应 用 提供 者 认识 到 网 络 上 的 数据 对 很 多 Web 开 发 者 
都 是 有 价值 的 。 由 于 APl 能 够 让 产品 更 流行 ， 并 且 最 终 可 能 产生 更 多 的 广告 收入 ， 可 用 的 API 也 融 迅 猛 增长 。 


Web API 检 索 数 据 的 一 般 逻 辑 是 很 简单 的 。 我 们 在 图 9-4 里 提供 了 范例 。API 提 供 者 配置 了 一 个 服务 ， 该 服务 可 以 授权 从 应 用 访问 数据 ， 
或 授权 访问 应 用 上 自身。API 用 户 可 以 访问 API 以 采集 数据 ， 或 与 该 应 用 进行 通信 。 为 了 方便 地 和 Web 服 务 进行 数据 交换 ， 有 时 候 也 有 必要 编写 封 


装 器 软件 。 封 装 器 是 处 理 APIl 访 问 和 数据 转换 (例如 ， 从 JSON 到 R 对 象 ) 细节 的 函数 。API 的 工作 方法 各 有 不 同 ， 下 面 会 简短 讨论 流行 的 REST 和 
SOAP 标 准 。API 以 各 种 不 同 的 格式 提供 数据 。JSON 可 能 已 经 成 为 现代 Web ApPl 里 最 流行 的 数据 交换 格式 ， 但 XML 仍然 被 经 常 使 用 ， 其 他 如 
HTML、 图 片 、CSV 和 二 进 制 数据 文件 等 格式 也 有 可 能 会 遇 到 |。 
API 提供 方 、 
( 如 Twitter、Yahool ) API HP 
Web 应 用 用 户 的 应 用 
{| . 工作 方法 。 . : Pe Te {I ee eee m r 
‘REST. SOAP4$: | : 
3 . 一 ~ 
Web 服 务 /数据 API i 用 户 的 软件 ( 如 R ) 
BY 据 格式 : 
: JSON, XML af 》 
Fi: A PISsh 252 it 2K FF 


aaa 和 


图 9-4 Web API 的 工作 机 制 


APl 是 为 开 友 者 实现 的 ， 那 么 它 必须 对 人 类 是 可 理解 的 。 因 此 ， 关 于 特性 、 消 数 和 参数 的 详细 文档 往往 是 API 的 一 部 分 。 它 让 程序 员 能 忆 体 
把 握 API 所 提供 信息 的 内 容 和 形式 ， 以 及 它 等 竺 接收 的 信息 ， 例 如 ， 通 过 查询 字符 串 传递 的 参数 。 


API 的 标准 化 有 助 于 程序 员 快 速 熟悉 某 个 API 的 机 制 。APIl 有 几 种 标准 或 风格 ,其 中 比较 流行 的 是 REST 和 SOAP。 注 意 这 一 点 很 重要 : 为 了 
通过 R 使 用 Web 服 务 ， 我 们 通常 不 需要 对 这 些 技术 有 更 深入 的 知识 ,不论 是 因为 其 他 人 已 经 编写 了 这 些 API 的 便利 接口 ， 还 是 因为 我 们 天 于 


一 人 


HTTP、XML 和 和 JSON 的 知识 已 经 足以 理解 API 文 档 并 检索 我 们 所 要 查找 的 信息 。 因 此 ， 我 们 在 此 只 是 对 它们 进行 简略 的 讨论 。 


REST 代 表 的 含义 是 表征 状态 转移 (Representational State Transfer， 参 见 Fielding 2000) 。 在 REST 背 后 的 核心 思想 是 ， 资 源 是 被 引用 

的 (例如 ， 通 过 URL) ， 而 这 些 资源 的 表征 是 用 来 交换 的 。 表 征 是 如 HTML、XM1L 或 JSON 文 件 这 样 的 实际 文档 。 有 人 可 能 会 认为 在 Twitter 上 的 
会 话 就 是 一 个 资源 ， 而 这 个 资源 可 以 用 JSON 代 码 或 其 他 格式 的 合法 表征 来 代表 。 这 个 说 法 听 起 来 就 像 是 互联 网 应 该 承担 的 角色 ， 实 际 上 大 家 可 
以 襄 互 联网 本 身 就 是 符合 REST 思 想 的 。REST 的 制定 是 紧密 地 与 HTTP 的 设计 相 联 系 的 ， 因 为 标准 的 HTTP 方 法 GET、POST、PUT 和 DELETE 都 被 
用 于 表征 的 转移 。 当 目标 是 检索 数据 的 时 候 ，GET 是 常用 的 方法 。 为 了 简化 问题 ， 对 一 个 REST API 的 GET 请 求 和 浏览 器 在 请 求 Web 内 容 时 友 送 
到 服务 器 的 GET 请 求 的 不 同 之 处 有 : (a) API 参 数 通 常 有 完善 的 文档 以 及 (b) API 响 应 里 只 是 内 容 ， 而 没有 任何 布局 信息 。POST，PUT 和 
DELETE 分 别 是 当 我 们 需要 创建 、 更 新 和 删除 内 容 时 实现 的 方法 。 这 对 于 连接 到 个 人 账户 的 AP1， 例 如 ， 来 自 像 Facebook 或 Twitter 这 样 的 社交 
媒体 平台 的 AP1， 是 很 有 用 的 。 最 后 ，RESTful API 是 指 遵从 REST 限 制 条 件 的 API。 这 里 的 限制 条 件 包 括 : 有 一 个 基准 URL， 可 以 把 查询 参数 加 
到 它 后 面 、 一 种 特定 的 表征 (JSJON，XML，.…) ， 以 及 标准 HTTP 方 法 的 使 用 。 


另 一 种 我 们 有 时 会 遇 到 的 Web 服 务 标准 是 SOAP， 它 起 初 是 简单 对 象 访问 协议 (Simple Object Access Protocol) 的 缩写 。 因 为 该 技术 比 
较 难以 理解 和 实施 ， 现 在 它 已 经 逐步 被 REST 所 替代 。 基 于 SOAP 的 服务 经 常 和 一 个 WSDL (Web Service Description Language，Web 服 务 描 
述 语言 ) 文档 配合 使 用 ，WSDI 会 描述 所 有 可 用 的 方法 以 及 服务 接收 和 返回 的 数据 结构 。WSDL 文 档 本 身 是 基于 XML 的 ， 因 此 也 可 以 用 XML 解 
析 器 进行 解释 。 因 此 ， 基 于 SOAP 的 Web 服 务 有 个 优点 就 是 用 户 可 以 让 他 们 的 软件 环境 自动 基于 WSDL 构 建 API 调 用 函数 ， 因 为 API 的 功能 在 
WSDL 文 档 里 有 完整 的 描述 。 要 了 人 解 更 多 在 R 中 使 用 SOAP 的 信息 ， 请 参见 Nolan 和 Temple Lang (2014, Chapter 12) 。 这 两 位 作者 提供 了 
SSOAP 组 件 ， 它 通过 把 WSDL 文 档 记录 的 规则 转换 为 R 函 数 和 类 ， 从 而 为 使 用 5OAP 和 R 提 供 了 便利 (Temple Lang 2012b) 。[ 引 在 运行 时 创建 
包装 函数 的 优势 是 程序 能 够 轻松 应 对 API 的 改变 。 不 过 ， 因 为 SOAP 技 术 正 在 变 得 越 来 越 少见 ， 所 以 本 节 会 关注 基于 REST 的 服务 。 


把 RESTful API 和 R 配 套 使 用 其 实 是 很 简单 的 ， 比 我 们 已 经 学 习 过 的 关于 普通 GET 请 求 的 知识 难 不 了 多 少 。 我 们 拿 Yahoo 的 天 气 预 报 RSSiJ 
阅 源 作为 一 个 例子 尝试 一 下 ， 它 的 文档 在 http://developer.yahoo.com/weather/。 这 里 有 关于 地 球 任意 地 点 的 当前 天 气 情况 信息 以 及 5 天 的 天 
气 预报 ， 提 供 这 些 信 息 的 形式 是 RSS 文 件 ， 也 就 是 一 种 XML 风 格 的 文档 (参见 3.4.3 节 ) 。 该 订阅 源 发 送 的 基本 上 
是 http://weatheryahoo.com/ 所 提供 信息 的 数据 部 分 。 我 们 可 以 利用 这 个 API 产 生 我 们 目 己 的 预报 ， 或 创建 一 个 基于 R 的 天 气 小 工具 。 根 据 文 
档 里 的 使 用 条 到， 设 订 阅 源 对 于 个 人 和 非 商业 用 途 是 免费 提供 的 。 


在 学 习 文档 的 时 候 我 们 可 以 看 到 ， 向 订阅 源 友 送 请 求 是 相当 简单 直接 的 。 我 们 需要 指定 的 只 是 我 们 想 从 API 获 取 天 气 信息 的 地 点 (w 参 数 ) 
以 及 要 求 的 温度 单位 (华氏 还 是 摄氏 ，u 参 数 ) 。 位 置 参数 要 求 用 WOEID 编 码 ， 也 就 是 “在 地 球 的 哪里 识别 符 ”， 也 可 以 理解 为 “到 底 在 哪里 
识别 符 ” (Where On Earth Identifier) 。 它 是 一 个 32 位 的 识别 符 ， 对 于 每 个 地 理 实体 是 唯一 的 ( 参 
见 http://developer.yahoo.com/geo/geoplanet/guide/concepts.html) 。 在 Yahoo 的 天 气 应 用 里 手工 搜索 ， 我 们 找到 New Jersey 
Hoboken 的 WOEID 是 2422673。 利 用 HTTP GET 语 法 来 调用 该 订阅 源 是 很 简单 的 。 我 们 已 经 知道 如 何在 R 里 进行 这 种 调用 。 我 们 要 指定 该 API 的 
基准 URL 并 向 该 订阅 源 发 送 一 个 GET 请 求 ， 在 其 中 提供 的 Ww 参数 是 上 述 WOEID，u 参 数 是 摄氏 度 。 


R> feed url <- "http://weather.yahooapis.com/forecastrss" 
R> feed <- getForm(feed url, .params = list(w = "2422673", u = "c")) 


FASREAYRSS1J RE AN FatEXMLAZB, FeTeTLAFEXMLZ8 (4a eT BO CA TAT. 
R> parsed feed <- xmlParse (feed) 


原始 的 Rss 文件 篇 幅 相 当 大 ， 所 以 我 们 只 给 出 最 前 面 和 最 后 面 的 一 段 。 


l <«?Pxaml version="1.0" encoding="UTF-8" standalone="yes"?> 


2 <rss xmlns:yweather="http://xml.weather.yahoo.com/ns/rss/1.0" 
xmlins:geo="http: //www.w3.org/2003/01/geo/wgs84 pos}" version="2.0"> 

3 <channel> 

4 <title>Yahoo! Weather - Hoboken, NJ</title> 

5 <link=http://us.rd.yahoo.com/dailynews/rss/weather/Hoboken NJ/* 


http: //weather.yahoo.com/forecast/USNJ0221 c.html</link> 


6 <description:Yahoo! Weather for Hoboken, NJ</description> 
了 <language>en-us</language> 
<lastBuildDate=Tue, 18 Feb 2014 7:35 am EST</lastBuildDate:; 
9 <ttl=60</ttl:> 
10 <yweather: location city="Hoboken" region="NJ" country="United 
States"/> 
11 <yweather:units temperature="C" distance="km" pressure="mb" 
speed="km/h"/> 
12 <yweather:wind chill="-3" direction="40" speed="11.27"/> 
13 <yweather:atmosphere humidity="93" visibility="1.21" 
pressure="1015.92" rising="2"/> 
14 oe 
15 <item: 
16 
17 <yweather:condition text="Cloudy" code="26" temp="0" date="Tue, 
18 Feb 2014 7:35 am EST"/> 
18 <eyweather:forecast day="Tue" date="18 Feb 2014" low="-2" 
high="4" text="Rain/Snow" code="5"/>s 
19 <yweather:forecast day="Wed" date="19 Feb 2014" low="-2" 
high="7" text="Showers" code="11"/> 
20 <yweather:forecast day="Thu" date="20 Feb 2014" low="3" high="7" 
text="Partly Cloudy" code="30"/> 
21 <yweather:forecast day="Fri" date="21 Feb 2014" low="1" 
high="12" text="Rain/Thunder" code="12"/> 
22 <yweather:forecast day="Sat" date="22 Feb 2014" low="-1" 
high="9" text="Partly Cloudy" code={"30"/>s 
23 </item=> 
< /channel> 


25 </YB8> 


我 们 可 以 利用 标准 XPath 表达 式 和 XML 组 件 里 的 便利 函数 对 解析 的 XML 对 象 进行 处 理 。 作 为 例子 ， 我 们 要 提取 当前 天 气 参 数 的 值 ， 它 们 是 
保存 在 一 组 属性 中 的 。 


R> xpath <- "//yweather:location|//yweather:wind|//yweather:condition" 
R> conditions <- unlist(xpathSApply (parsed feed, xpath, xmlAttrs) ) 
R> data. frame (conditions) 


conditions 
CIty Hoboken 
region NJ 
country United States 
chill -3 
direction 40 
speed gE We 
text Cloudy 
code 26 
temp 0 
date Tue, 18 Feb 2014 7:35 am EST 


我 们 还 创建 了 一 个 小 数据 框 ， 里 面包 含 接 下 来 5 天 里 的 天 气 预 报 统 计数 据 。 


R> location <- t (xpathSApply (parsed feed, "//yweather:location", xmlAttrs) ) 
R> forecasts <- t(xpathSApply(parsed feed, "//yweather:forecast", xmlAttrs) ) 
R> forecast <- merge(location, forecasts) 

R> forecast 


city region country day date low high text code 
1 Hoboken NJ United States Tue 18 Feb 2014 -2 4 Rain/Snow 5 
2 Hoboken NJ United States Wed 19 Feb 2014 -2 7i Showers 11 
3 Hoboken NJ United States Thu 20 Feb 2014 3 7 Partly Cloudy 30 
4 Hoboken NJ United States Fri 21 Feb 2014 T 12 Rain/Thunder 12 
5 Hoboken NJ United States Sat 22 Feb 2014 -1 9 Partly Cloudy 30 


如 果 不 存 在 对 Web 服 务 的 R 接 口 ， 处 理 来 自 REST API 查 询 的 结果 就 全 靠 我 们 自己 了 。 我 们 也 可 以 为 API 调 用 创建 便利 包装 遂 数 。 针 对 某 些 
Web 服 务 也 有 现成 的 组 件 ， 提 供 了 便利 肖 数 可 以 把 R 对 象 传递 给 API 并 接收 从 API 返 回 的 R 对 象 。 一 旦 你 熟悉 了 API 的 逻辑 和 返回 数据 相关 的 技 
术 ， 创 建 这 些 函 数 并 不 会 太 难 。 让 我 们 党 试 为 Yahoo 天 和 气 订阅 源 的 例子 构建 这 样 一 个 包装 函数 。 


为 已 有 Web 服 务 指定 包装 消 数 总 是 有 很 多 种 方法 。 我 们 想 构 建 一 个 命令 ， 把 地 点 名 称 作为 主要 的 参数 ， 并 返回 当前 的 天 气 情况 或 对 未 来 几 
天 的 预报 。 在 前 面 已 经 看 到 ，Yahoo 天 气 订 阅 源 需要 一 个 WOEID 作 为 输入 。 手 工 搜索 相应 的 点 的 WOEID 并 传递 给 函数 的 做 法 看 起 来 比较 不 方 
便 ， 所 以 我 们 要 把 这 部 分 工作 也 进行 目 动 化 。 实 际 上 ， 还 有 另外 一 个 API 可 以 为 我 们 承担 这 项 工作 。 

在 http://developer.yahoo.comy/geo/geoplanet/ 我 们 发 现 有 一 套 RESTful API 包 含 在 Yahool GeoPlanet 标 签 下 ， 里 面 提 供 了 一 批 服 务 。 其 中 
一 项 服务 会 返回 指定 地 点 的 WOEID。 


http://where.yahooapis.com/v1/places.q( northfield%20mn%20usa' )?appid=[yourappidhere] 


这 个 URL 包 含 了 查询 参数 appid。 我 们 必须 获得 一 个 app ID 才能 使 用 这 项 服务 。 很 多 Web 服 务 要 求 注册 ， 后 面 甚至 涉及 一 个 复杂 的 身份 验 
证 流程 (参见 9.1.11 节 ) 。 在 我 们 的 例子 里 ， 只 需要 在 Yahoo Developer Network 注 册 以 获取 一 个 ID。 我 们 在 Yahoo 把 应 用 注册 并 命名 为 
RWeather。 在 提供 了 相关 信息 后 ， 我 们 获得 了 ID 并 可 以 把 它 加 入 API 查 询 条 件 中 。 为 了 能 重复 使 用 该 1D 而 不 需要 把 它 放 在 代码 里 ， 我 们 把 它 保 


存在 R 选 项 中 : NOl 


R> options(yahooid = "t.2cnducOBgpWb7qmlc14vEk8sbL7LijbHoKS.utZ0") 


对 WOEID API 的 调用 如 下 。 我 们 先 指定 基准 URL 并 把 要 碍 找 的 地 点 加 到 括号 里 的 占 位 符 中 。sprintf () 尔 数 在 这 里 很 有 用 ， 因 为 它 支 持 在 
另 一 个 字符 串 里 粘贴 文本 。 我 们 只 需要 把 这 个 字符 串 占 位 符 用 %s 标 记 即 可 。 


R> baseurl <- "http://where.yahooapis.com/v1/places.q('%s')" 
R> woeid url <- sprintf(baseurl, URLencode("Hoboken, NJ, USA") ) 


注意 ， 我 们 还 必须 用 URL 编 码 对 地 点 名 字 进 行 编码 (参见 5.1.2 节 ) 。 
http://where.yahooapis.com/v1/places.q(’ Hoboken, %20NJ, %20USA' ) 


下 一 步 ， 构 造 一 个 对 该 API 的 GET 调 用 。 我 们 加 入 刚才 申请 的 Yahoo app ID， 这 个 ID 现在 可 以 从 选项 中 检索 到 。 该 API 的 服务 会 返回 一 个 
XML 文档 ， 我 们 可 以 直接 把 它 解析 到 一 个 名 为 parsed_woeid 的 对 象 里 。 


R> parsed woeid <- xmlParse((getForm(woeid url, appid = getOption 
("yahooid") ))) 


该 XML 文 档 本 身 如 下 所 示 : 


l <?xml version="1.0" encoding="UTF-8"?> 

2 <places xmlns="http://where.yahooapis.com/vl/schema.rng" xmlns: 
yahoo="http://www.yahooapis.com/vl/base.rng" yahoo:start="0" 
yahoo: count="1" yahoo: total="1"> 


3 <place yahoo:uri="http://where.yahooapis.com/v1/place/2422673" 
xml: lang="en-US"> 

4 <woeid>2422673</woeid> 

5 <placeTypeName code="7">Town</placeTypeName> 

6 <name>Hoboken</name> 

7 <country type="Country" code="US" woeid="23424977">United 
States</country> 

8 <adminl type="State" code="US-NJ" woeid="2347589">New Jersey 
</adminli> 

9 <admin2 type="County" code="" woeid="12589266">Hudson</admin2> 


10 <admin3/> 
11 <localityl type="Town" woeid="2422673">Hoboken</localityl> 


13 <timezone type="Time Zone" woeid="56043648">America/New York 
</timezone> 
14 </place> 


15 </places> 





有 多 个 WOEID 保 存在 该 文档 里 ， 一 个 是 国家 的 ， 一 个 是 州 的 ， 还 有 一 个 是 该 城镇 本 身 的 。 我 们 可 以 通过 对 获取 的 XML 文件 进行 XPath 碍 
询 ， 提 取 该 城镇 的 WOEID。 注 意 ， 该 文档 是 带 有 命名 空间 的 。 我 们 可 以 利用 XPath 表达 式 //#*[local-name () ='locality1'] 访 问 存 放 了 WOEID 
的 <locality1> 元 素 ， 它 存放 了 该 文档 对 应 的 本 地 地 名 。 


R> woeid <- xpathSApply (parsed woeid, "//*[local-name()='locality1']", 
xmlAttrs) [2,] 
R> woeid 
woeid 
"2422673" 


我 们 已 经 检索 到 了 对 应 的 WOEID。 回 顾 一 下 ， 我 们 的 目标 是 构建 一 个 函数 ， 以 R 可 用 的 格式 返回 对 Yahoo 天 气 订阅 源 的 查询 结果 。 我 们 已 
经 看 到 ， 这 样 一 个 函数 必须 包装 不 止 一 个 而 是 两 个 AP|- WOEID 查 找 ， 以 及 实际 的 天 际 预报 订阅 。 我 们 的 工作 成 果 是 一 个 叫 
getWeather () 的 函数 ， 如 图 9-5 所 示 。. 


getWeather <- function(place = "New York", ask = "current", temp = "c") { 
if (!ask int c("current","forecast")) { 
stop("Wrong ask parameter. Choose either 'current' or 
"Eetecase™ 


W N = 


} 
if (!Itemp tint c("c", "£")) 1 
stop("Wrong temp parameter. Choose either 'c' for Celsius or 
'f' for Fahrenheit.") 


nn 上 上 


CN 


7 } 

8| ## get woeid 
base url <- "http://where.yahooapis.com/v1/places.q('%s')" 

10 woeid url <- sprintf (base url, URLencode (place) ) 

1] parsed woeid <- xmlParse((getForm(woeid url, appid = getOption(" 
yahooid") ) ) ) 

12 woeid <- xpathSApply (parsed woeid, "//*[local-name()='localityl1']", 
ET 

13 | ## get weather feed 

14 feed url <- "http://weather.yahooapis.com/forecastrss" 

15 parsed feed <- xmlParse(getForm(feed url, .params = list(w = woeid, 

temp) ) ) 
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## get current conditions 
if (ask == "current") { 
xpath <- "//yweather:location|//yweather:condition" 
conds <- data.frame(t(unlist (xpathSApply (parsed feed, xpath, 
xmlAttrs) ) ) ) 
message (sprintf ("The weather in %s, %s, %S is %s. Current 
temperature is %s degrees %s.", conds$city, conds$region, 
condsScountry, tolower(conds$text), conds$Stemp, toupper (temp) ) ) 
} 
## get forecast 
if (ask == "forecast") { 


location <- 


data.frame(t (xpathSApply (parsed feed, "//yweather: 
location", xmlAttrs) ) ) 
forecasts <- data.frame(t (xpathSApply (parsed feed, 
"//yweather:forecast", xmlAttrs) ) ) 
message (sprintf ("Weather forecast for %s, %s, %s:" 
locationscity, locationSregion, locationsScountry) ) 
return (forecasts) 





该 包装 国 数 分 为 5 部 分 。 第 一 部 分 用 来 在 函数 的 参数 指定 了 错误 的 值 的 情况 下 报错 ， 参 数 ask 指 定 报告 的 是 当前 天 和 气 情况 还 是 天 气 预 报 ， 而 
temp 指 定 报告 的 单位 是 摄氏 度 还 是 华氏 度 。 第 二 部 分 (get woeid) 复制 了 我 们 在 前 面 详细 讲解 的 对 WOEID API 的 调用 。 第 三 部 分 (get 
weather feed) 使 用 该 WOEID 并 对 Yahoo 的 天 气 订阅 源 进行 调用 。 第 四 部 分 (get current conditions) 是 在 用 户 想 要 知道 当前 天 气 情况 (对 
指定 地 点 ) 时 执行 的 。 我 们 在 一 个 数据 框 conds 里 保存 了 某 些 条 件 参 数 并 把 结果 输入 一 个 句子 里 。 如 果 我 们 需要 对 数据 进行 后 期 处 理 ， 这 个 特 


性 并 不 是 太 有 用 ， 但 如 果 我 们 只 是 想 知 道 当前 的 天 气 如 何 ， 它 还 是 很 方便 的 。 —e 该 函数 的 第 五 部 分 就 会 激活 。 这 部 分 
代码 会 根据 XML 文档 中 的 预报 信息 创建 一 个 数据 框 ， 并 在 里 面 搭配 一 个 短 消 息 一 起 返 


让 我 们 试用 一 下 这 个 函数 。 首 先 ， 查 询 旧 金山 (San Francisco) 的 当前 天 和 气 情 况 。 


R> getWeather(place = "San Francisco", ask = "current", temp = "c") 
The weather in San Francisco, CA, United States is cloudy. Current 
temperature is 9 degrees C. 


这 次 调用 是 成 功 的 。 注 意 ，Yahoo 的 天 气 API 对 于 地 点 的 定义 有 容错 能 力 。 如 果 地 点 名 是 唯一 的 ， 我 们 就 无 须 指 定 州 或 国家 。 如 果 地 点 不 唯 
一 (如 “Springfield”) ，API 会 目 动 给 出 默认 选项 。 下 一 步 ， 我 们 要 获取 在 旧金山 的 天 气 预报 。 


R> getWeather (place = "San Francisco", ask = "forecast", temp = "c") 
Weather forecast for San Francisco, CA, United States: 

day date low high text code 

Tue 18 Feb 2014 10 18 Partly Cloudy 30 

Wed 19 Feb 2014 13 19 Partly Cloudy 30 

Thu 20 Feb 2014 12 18 Cloudy 26 

Fri 21 Feb 2014 11 17 Few Showers 11 

Sat 22 Feb 2014 10 19 Partly Cloudy 30 
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通过 添加 更 多 参数 或 返回 更 有 用 的 R 对 象 ， 我 们 可 以 很 容易 对 该 为数 进行 扩展 。 这 个 例子 是 用 来 演示 基于 REST 的 Web 服 务 的 总 体 工作 原 
理 ， 以 及 在 R 里 利用 它们 是 多 么 容易 。 在 网 络 上 有 很 多 有 用 的 APl。 在 http://www.programmableweb.com/apis 里 ， 我 们 能 看 到 数 以 干 计 的 
Web API 的 概况 。 当 前 ， 它 里 面 列 出 了 超过 11000 个 Web API， 以 及 超过 7000 个 混搭 程序 ， 也 就 是 使 用 并 组 合 来 自 API 的 内 容 的 应 用 程序 。 在 
9.4 节 ， 我 们 会 提供 一 些 关 于 发 现 有 用 数据 源 (包括 API 在 内 ) 的 额外 建议 。 


9.1.11 用 OAuth 进 行 身份 验证 


很 多 Web 服 务 是 对 所 有 人 公开 的 。 不 过 ， 在 某 些 情况 下 ，API 会 要 求 用 户 注 册 并 在 向 Web 服 务 友 送 请 求 时 提供 个 人 密 钥 。 身 份 验证 是 用 来 
追踪 数据 使 用 情况 和 限制 访问 的 。 和 身份 验证 (Authentication) 相关 联 的 是 授权 (Authorization) 。 授 权 意 味 着 允许 某 个 应 用 访问 身份 验证 
的 细节 信息 。 例 如 ， 如 果 你 在 手机 上 使 用 第 三 方 Twitter 客 户 端 ， 你 就 要 授权 该 应 用 使 用 你 的 身份 验证 细节 信息 去 连接 你 的 Twitter 账 号 。 在 
5.2.2 节 ， 我 们 已 经 讲解 了 关于 HTTP 身 份 验 证 的 方法 。API 则 是 经 常 要 求 通过 一 个 叫 作 OAuth 的 标准 进行 更 复杂 的 身份 验证 。 


OAuth 是 一 个 重要 的 授权 标准 ， 它 用 于 特定 的 场景 。 比 如 ， 你 在 Twitter 有 个 账号 ， 你 经 常 通过 它 告诉 你 的 朋友 你 脑子 里 在 想 的 事情 ， 并 了 
解 你 的 社交 圈子 里 的 新 鲜 事 。 为 了 让 自己 在 路 上 的 时 候 也 能 持续 关注 它 ， 你 在 手机 上 也 使 用 了 Twitter。 因 为 你 不 满意 Twitter 官 方 应 用 提供 的 标 
准 功 能 ， 你 依赖 第 三 方 客 尸 端 应 用 ， 也 束 是 另 一 个 公司 开发 的 应 用 ， 它 能 提供 额外 的 一 些 功能 (如 Tweetbot) 。 为 了 让 这 个 应 用 显示 你 天 注 的 
MIRAE (tweet) 并 让 自己 有 机 会 友 推 文 ， 你 束 必 须 给 它 授予 你 在 Twitter 上 的 某 些 权利 。 你 永远 不 应 该 做 的 事情 是 交 出 你 的 访问 信息 ， 
也 就 是 登录 名 和 密码 ， 不 要 把 它 交 给 任何 人 ， 即 使 是 Twitter 客 户 端 也 不 行 。 这 残 是 OAuth 起 作用 的 地 方 。OAuth 和 其 他 身份 验证 技术 的 不 同 之 
处 在 于 ， 它 区 分 了 以 下 3 万 : 


- Web 服 务 或 API 的 提供 方 。 提 供 方 为 他 的 服务 实现 OAuth 并 对 其 他 各 方 访问 的 网 站 /服务 器 负责 。 
数据 所 有 者 。 他 们 拥有 数据 并 控制 哪些 消费 者 ( 见 后 面 的 一 方 ) 被 授权 访问 其 数据 ， 能 访问 到 何 种 程度 。 
. 数据 消费 者 或 客户 。 这 是 指 那 些 需 要 使 用 数据 所 有 者 的 数据 的 应 用 。 


在 我 们 使 用 R 工 作 时 ， 我 们 通常 会 承担 其 中 的 2 种 角色 。 首 先 ， 当 我 们 要 对 自己 拥有 的 账户 或 任何 Web 服 务 的 数据 访问 进行 授权 的 时 候 ， 我 
们 是 数据 所 有 者 。 第 二 ， 我 们 也 是 数据 消费 者 ， 因 为 我 们 会 编写 一 段 R 语 言 软件 ， 必 须 得 到 授权 才能 从 某 个 API 访 问 数据 ， 

当前 OAuth 存 在 2 个 版 本 : OAuth 1.0 和 OAuth 2.0 (Hammer-Lahav 2010; Hardt 2012) 。 它 们 在 复杂 度 、 舒 适 性 和 安全 性 方面 都 有 差 
a, DARI, XF (BARAH) OAuth 是 否 真 的 比 其 他 版 本 更 安全 有 效 的 问题 ， 曾 经 也 存在 争议 。[ 引 作为 用 户 ， 我 们 通常 不 必 在 2 个 标准 中 


间 做 出 选择 ， 因 此 ， 我 们 不 会 在 本 书 中 更 深入 地 讨论 这 个 问题 。OAuth 的 官网 为 http://oauth.net/。 在 http://hueniverse.com/oauth/ 里 有 更 
多 信息 ， 包 括 入 门 指南 和 教程 。 


在 OAuth 框 如 里 ， 授 权 的 工作 原理 是 什么 ”首先 ，OAuth 划 分 了 3 种 类 型 的 证 书 : 客户 证 书 (或 消费 者 密 钥 和 秘密 ) 、 临 时 证 书 (或 请 求 
令 牌 和 秘密 ) 和 令 牌 证 书 (或 访问 令 牌 和 秘密 ) 。 在 授权 过 程 的 各 个 阶段 ， 证 书 都 是 作为 对 数据 所 有 者 信息 进行 合法 访问 的 证 明 。 客 户 证 书 是 


用 在 API 提 供 方 对 该 应 用 进行 注册 的 。 客 户 证 书 是 给 客户 端 进行 身份 验证 用 的 。 当 使 用 R 来 访问 API 时 ， 我 们 通常 需要 先 在 API 提 供 方 的 主页 注册 
一 个 应 用 ， 称 为 “My R-based program” 等 。 在 注册 流程 中 ， 我 们 获取 了 客户 证 书 ， 也 就 是 一 个 关联 到 应 用 (〈 且 唯一 对 应 它 ) 的 消费 者 密 钥 
和 秘密 。 临 时 证 书 用 来 证 明 应 用 对 令 牌 的 访问 请 求 是 由 一 个 被 授权 的 客户 执行 的 。 如 果 我 们 要 设置 应 用 去 访问 来 自 一 个 资源 所 有 者 (例如 ， 我 
们 自己 的 Twitter 账 户 ) 的 数据 ， 我 们 首先 就 必须 获得 这 些 临 时 证 书 ， 也 就 是 一 个 请 求 令 牌 和 秘密 。 如 果 资 源 所 有 者 同意 该 应 用 访问 其 数据 (或 
部 分 数据 ) ， 该 应 用 的 临时 证 书 就 获得 了 授权 。 现 在 这 些 I 临 时 证 书 就 可 以 用 来 交换 令 牌 证 书 ， 也 就 是 一 个 访问 令 牌 和 和 秘密。 这样， 将 来 该 应 用 
向 该 API 提 出 请 求 的 时 候 ， 融 可 以 使 用 这 些 访问 证 书 ， 而 用 户 则 不 必 再 提供 其 原始 身份 验证 信息 ， 也 束 是 用 户 名 和 密码 。 


在 OAuth 授 权 实 践 中 涉及 多 种 不 同类 型 的 证 书 ， 这 一 事实 表明 ， 这 是 一 个 由 多 个 步骤 组 成 的 复杂 过 程 。 季 运 的 是 ， 我 们 还 可 以 依赖 能 够 畏 
助 OAuth 注 册 的 R 软 件 。ROAuth 组 件 (Gentry 和 Lang 2013) 提供 了 一 组 函数 ， 能 帮助 从 R 里 提出 注册 请 求 。httr 组 件 (Wickham 2012) 则 
提供 了 一 套 简 化 的 OAuth 注 册 接 口 。 我 们 会 利用 来 自 httr 组 件 的 命令 讲解 R 里 的 OAuth 身 份 验证 过 程 。 


oauth endpoint () 用 于 在 提供 者 这 一 端 定义 OAuth 端 点 。 所 谓 端点 (endpoint) 就 是 一 些 可 以 被 应 用 请 求 的 URL， 应 用 通过 它们 来 获 
得 授权 过 程 中 各 种 步骤 所 需 的 令 牌 。 这 里 包括 了 给 请 求 令 牌 (第 一 个 ， 也 是 未 经 身份 验证 的 令 牌 ) 分 配 的 端点 ， 以 及 给 访问 令 牌 的 端点 ， 用 于 
把 未 经 身份 验证 的 令 牌 交换 为 验证 过 身份 的 令 牌 。 


oauth_app () 用 来 创建 一 个 应 用 。 我 们 通常 会 在 API 提 供 者 的 网 站 手工 注册 一 个 应 用 。 在 注册 之 后 ， 我 们 会 获得 一 个 消费 者 密 钥 和 秘密 。 
我 们 把 两 者 都 复制 粘贴 到 R 里 。oauth_app () 函数 直接 把 消费 者 密 铀 和 秘密 打包 放 进 一 个 列表 ， 这 个 列表 就 可 以 用 于 请 求 得 到 访问 证 书 。 昌 然 
消费 者 密 钥 必须 在 函数 里 指定 ， 但 消费 者 秘密 可 以 放 在 APPNAME CONSUMER SECRET 选项 里 ， 让 该 函数 从 R 环 境 里 自动 提取 它 。 这 种 方法 
的 好 处 是 我 们 不 需要 在 R 代 码 里 保存 秘密 。 


oauth1.0 token () 和 oauth2.0 token () 的 功能 是 用 消费 者 密 钥 和 秘密 (它们 保存 在 一 个 用 oauth_ app () 函数 创建 的 对 象 里 ) 换取 
访问 密 钥 和 秘密 。 该 函数 会 尝试 从 在 oauth_ endpoint () 指定 的 访问 端点 获取 这 些 证 书 。 


最 后 ，sign_oauth1.0 () 和 sign_oauth2.0 () 的 功能 是 从 获取 的 访问 令 牌 中 创建 一 个 签名 。 该 等 名 可 以 从 已 注册 的 应 用 里 加 到 API 请 求 
中 ， 这 样 丈 无 须 传递 用 尸 名 和 密码 了 。 


我 们 要 通过 例子 来 演示 如 何 利 用 Facebook 的 Graph API 完 成 OAuth 注 册 。 该 API 能 授权 访问 用 户 公 开 的 信息 ， 并 在 用 户 允 许 的 情况 下 访问 
部 分 私有 信息 。 使 用 该 API 的 前 提 是 我 们 必须 有 一 个 Facebook 账 号 。 首 先 必 须 注册 一 个 应 用 ， 并 授权 它 可 以 访问 我 们 的 个 人 信息 。 打 
开 https://developers.facebook.com 并 使 用 Facebook 身 份 验证 信息 进行 登录 。 下 一 步 ， 通 过 点 击 Apps 和 Create a new app 来 创建 一 个 新 的 
应 用 。 我 们 必须 提供 某 些 基 础 信息 并 通过 一 项 检查 以 证 明 我 们 不 是 机 器 人 。 现 在 ,我 们 的 应 用 RDataCollectionApp 注 册 成 功 了 。 我 们 转 到 该 应 
用 的 仪表 板 来 获取 关于 该 应 用 的 信息 ， 也 就 是 App ID 和 App secret。 在 OAuth 术 语 中 ， 它 们 就 相当 于 消费 者 密 钥 和 消费 者 秘密 。 


下 一 步 ， 我 们 要 切换 到 R 以 获取 访问 密 铀 。 利 用 httr 的 功能 ， 先 定义 Facebook 的 OAuth 端 点 。 这 项 工作 可 以 通过 oauth_endpoint () 函数 


R> facebook <- oauth endpoint ( 
R> authorize = "https://www.facebook.com/dialog/oauth", 
R> access = "https://graph.facebook.com/oauth/access token") 


通过 oauth_app () 函数 ， 我 们 把 这 个 应 用 的 消费 者 密 铀 和 秘密 打包 放 在 一 个 对 象 里 。 注 意 ， 我 们 之 前 已 经 把 消费 者 秘密 通过 
Sys.setenv (FACEBOOK CONSUMER SECRET="3983746230hg8745389234http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15597/OEBPS/Text/...") 导入 R 环 境 ， 让 这 个 需要 保密 的 信息 不 在 R 代 码 里 出 现 。 
oauth_app () 会 自动 从 R 环 境 里 获取 它 ， 并 将 其 写 入 新 的 fb_app 对 象 中 。 


R> fb app <- oauth app ("facebook", "485980054864321") 


现在 我 们 必须 用 消费 者 证 书 换取 访问 证 书 。Facebook 的 Graph API 使 用 的 是 OAuth 2.0， 所 以 我 们 必须 使 用 oauth2.0 token () RAŽU A 
过 ， 在 执行 它 之 前 ,我们 还 必须 做 一 些 准 备 工作 。 首 先 ， 我 们 要 在 浏览 器 里 向 应 用 加 入 一 个 网 站 URL。 我 们 通过 在 Settings 部 分 通过 加 入 一 个 网 
站 并 指定 一 个 站 点 URL 来 进行 。 通 常 这 一 步 用 http://localhost:1410/ 这 个 URL 应 该 是 管用 的 ,但 你 也 可 以 调用 oauth_callback () 来 获取 该 


OAuth 监 听 器 的 回调 URL， 这 里 的 监听 器 是 指 一 个 监听 ApPl 提 供 者 的 OAuth 反 馈 的 Web 服 务 器 。[14 其 次 ， 我 们 要 定义 申请 的 许可 范围 。 可 能 的 


许可 清单 可 以 在 https://developers.facebook.com/docs/facebook-login/permissions/ 看 到 。 我 们 挑 出 其 中 的 一 些 并 把 它们 写 入 


permissions 对 象 。 


R> permissions <- "user birthday, user hometown, user location, 
user status, user checkins, friends birthday, friends hometown, 
friends location, friends relationships, friends status, friends _ 
checkins, publish actions, read stream, export stream" 


现在 我 们 可 以 请 求 获取 访问 证 书 了 。 同 样 ， 我 们 利用 httr 的 oauth2.0 token () 命令 来 进行 OAuth 2.0 的 协商 。 


R> fb token <- oauth2.0 token(facebook, fb app, scope = permissions, 
type = "application/x-www-form-urlencoded") 


starting httpd help server ... done 

Waiting for authentication in browser... 

Authentication complete. 

TZAR, BATS BHC SIX Maa. EYXOSaE A. Fell eA MIA SEB RUE TEA WER. 


R> fb sig <- sign oauth2.0(fb token) 


现在 我 们 准备 好 从 R 里 访问 该 AP1 了 。Facebook 的 Web 服 务 提供 了 大 范围 的 函数 。 玉 运 的 是 ， 有 个 叫 Rfacebook 的 R 组 件 让 该 APIl 易 于 访 
例如 ， 我 们 可 以 通过 如 下 代码 访问 Facebook 用 户 的 公开 数据 。 


oj 
o 


R> getUsers ("hadleywickham", fb sig, private info = FALSE) 
id name username first name last name 
1 16910108 Hadley Wickham hadleywickham Hadley Wickham 


该 组 件 也 支持 访问 个 人 社交 网 络 的 信息 。 


R> friends <- getFriends(fb sig, simplify = TRUE) 
R> nrow(friends) 
[1] 143 
R> table(friends infoSgender) 
female male 
yal Te 
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[1 注意 ，URL 里 的 “2010 ”是 有 误导 的 ， 在 这 个 链接 地 址 提供 的 是 2012 年 的 选区 图 。 

[2] 对 于 FTP 服务 器 ，getHTMLLinks0 命 令 不 能 作为 候选 方案 ， 因 为 其 中 的 文档 结构 和 HTML 不 一 样 。 

[3] 回顾 一 下 ，EFTP 有 自己 的 一 组 命令 ， 正 如 HTTP 有 类 似 于 GET 和 POST 这 样 的 命令 一 样 。FTP 命 令 的 清单 (其 中 一 些 可 以 通过 cutl 的 
customrequest 选 项 轻松 实现 ) 可 以 在 http://www.nsftools.com/tips/RawFTP.htm 看 到 。 

[4] 回顾 一 下 ，URL 编码 指 的 是 把 特殊 字符 替换 为 其 百 分 号 转 义 表示 法 的 过 程 。 关 于 该 主题 的 更 多 信息 ， 请 参见 5.1.2 节 。 





[5] 就 是 习题 解答 单元 。 但 是 ， 下 面 代 码 里 给 出 的 用 户 名 和 窗 码 是 虚构 的 。 译 者 注 

[6] 在 本 书 编写 的 时 间 点 ， 最 新 的 服务 器 版 本 是 2.39.0。 

[7] 另 一 种 方法 是 利用 close_window0 关 闭 该 窗口 。 这 样 就 会 自动 把 焦点 转 回 到 前 一 个 窗口 。 

[8] 必要 时 ， 我 们 也 可 以 对 相应 元 素 调 用 element_clear0 函数 ， 从 文本 字段 里 删除 任何 输入 内 容 。 

9] 在 本 书 编写 的 时 间 点 ， 该 组 件 还 没有 列 入 CRANL。 

[10] 参见 9.1.6 节 。 书 上 印 的 那个 ID 其 实 是 虚构 的 。 

[11] 经 验 丰 富 的 程序 员 会 喜欢 这 种 可 能 性 : 不 用 离开 室内 ， 更 不 用 高 开 熟 悉 的 编程 环境 ， 就 能 获得 最 新 的 天 气 情 况 。 


[12] 参见 Eran Hammer-Lahav 445 49 “Introducing OAuth 2.0” 一文， 地 址 是 : http://hueniverse.com/2010/05/introducing-oauth-2-0/ 

[13] 参见 Eran Hammetr-Lahav 445% “OAuth 2.0 and the Road to Hell 一文， 地址 是 : http://hueniverse.com/2012/07 /oauth-2-0-and-the-road-to- 
hell/. 

[14] sed Det BY aT Oo AR A LOAuth LP. ARE, RNA OAuth, ARPA Dh BALL, CRAB LEE 


Ta 


9.2 Seis 


我 们 已 经 学 习 了 从 网 络 采 集 数 据 的 几 种 方法 。 有 三 种 标准 程序 : 以 HTTP 抓 取 并 利用 正则 表达 式 提 取信 息 、 通 过 XPath 查询 提取 信息 、 利 用 
API 进 行 数据 采集 。 它 们 通 冲 是 按照 升序 排列 优先 级 的 〈 例 如 ， 通 过 正则 表达 式 抓 取 数据 是 最 不 理想 的 ， 通 过 API 采 集 数 据 则 是 最 优先 的 ) ， 不 
过 在 某 些 情况 下 ， 某 个 万 法 并 不 一 定 适 用 ， 或 者 某 些 技 术 必 须 配 僚 使 用 。 因 此 ， 要 熟悉 所 有 这 几 种 万 法 也 是 情理 之 中 的 。 


在 下 面 的 内 容 里 ， 我 们 要 对 这 些 不 同 的 方法 进行 尽 体 的 比较 。 每 种 抓 取 的 场景 都 是 不 同 的 ， 所 以 每 个 方法 的 某 些 优点 和 缺点 也 许 不 一 定 适 
用 于 你 的 任务 。 而 且 ， 解 决 问 题 总 不 止 一 种 办 法 。 


如 果 在 一 个 网 站 上 的 数据 并 没有 以 现成 文件 形式 或 通过 API 的 方式 供 下 载 使 用 ， 那 么 从 屏幕 乙 外 抓 取 它们 往往 是 唯一 的 选择 。 利 用 正则 表达 
式 和 和 XPath 查询 ， 我 们 介绍 过 2 种 从 HTML 或 XML 代 码 里 提取 信息 的 策略 。 根 据 在 网 络 抓 取 流 程 里 相关 的 某 些 实践 条 件 ， 如 健壮 性 、 复 杂 度 、 灵 
活性 或 综合 能 力 ， 我 们 会 继续 讨论 这 两 种 扩 术 。 注 意 ， 这 些 讲解 主要 是 针对 静态 的 HTM LV/XML 内 容 的 。 


9.2.1 正则 表达 式 


图 9-6 提 供 了 利用 正则 表达 式 抓 取 程 序 的 一 套 模式 。 在 第 @ 步 ， 我 们 识别 现场 符合 某 个 通用 模式 的 信息 。 到 底 是 利用 正则 表达 式 还 是 其 他 方 
法 抓 取 数据 ， 这 一 决定 取决 于 我 们 对 该 信息 是 否 能 广义 化 为 一 个 正则 表达 式 的 直观 判断 。 在 某 些 情况 下 ， 数 据 可 以 通过 正则 表达 式 的 手段 进行 
摘 述 ， 但 是 忌 结 的 特征 却 无 法 区 分 页 面 上 其 他 无 天 内容。 例如 ， 如 果 我 们 识别 出 重要 的 信息 包 库 企 <b> 标 尝 里 ， 这 融 很 难 区 分 其 他 也 用 <b> 标 


签 标注 的 信息 。 如 果 数 据 需要 根据 上 下 文才 能 获取 ， 那 么 使 用 正则 表达 式 也 会 举步维艰 。 


识别 符合 某 个 正则 特征 的 信息 


下 载 文档 /网 站 


RCurl, download.file(), 正则 表述 式 





readLines(), ta 


指定 正则 表达 式 


一 般 表 达 式 一 优化 匹配 
特殊 情况 — 优化 匹配 


提取 信息 


和 stringr 组 件 配合 运用 的 正则 表达 式 





图 9-6 ”利用 正则 表达 式 进行 数 据 抓 取 


第 @ 步 是 下 载 网 站 内 容 。 在 9.1 节 里 讲解 的 很 多 方法 在 这 一 步 都 能 发 挥 作用 。 此 外 ， 正 则 表达 式 在 这 一 步 也 会 有 帮助 。 它 们 可 以 用 来 拼 沪 要 
下 载 的 一 批 URL， 或 用 于 URL 操 作 (参见 9.1.3 节 ) 。 


在 第 @ 步 ， 要 把 从 网 站 下 载 的 内 容 导 入 R 里 。 当 采用 了 纯粹 基于 正则 表达 式 的 抓 取 策略 时 ， 这 个 步骤 的 做 法 是 利用 readLines () aAA 


数 把 内 容 当 作 字 符 数 据 直接 读 取 。 在 导入 文本 数据 的 时 候 ， 必 须 特别 当心 原始 文档 采用 的 编码 方案 ， 因 为 我 们 希望 避免 运用 正则 表达 式 去 消除 

编码 错误 。 如 果 你 为 了 获取 1i，0 或 而 开始 使 用 str_replace () ， 那 么 你 很 可 能 是 曾经 忘记 了 在 readLines () 或 解析 函数 里 指定 编码 参数 ( 参 
见 8.3 节 ) 。 顺 便 提 一 句 ， 正 则 表达 式 并 不 会 利用 HTML 或 XML DOM, ， 所 以 我 们 不 需要 解析 文档 。 实 际 上 ， 利 用 htmlParse () 或 

xmlParse () 解析 的 文档 无 法 直接 用 正则 表达 式 访 问 。 如 果 把 正则 表达 式 和 XPath 方 法 搭配 使 用 ， 我 们 要 先 解析 该 文档 ， 再 用 XPath 查 询 来 提 

取信 息 ， 最 后 用 正则 表达 式 来 修改 获取 的 内 容 。 


第 @ 步 是 利用 正则 表达 式 进 行 成 功 的 网 络 抓 取 的 关键 一 步 。 我 们 必须 制定 一 个 或 多 个 提取 相关 信息 的 正则 表达 式 。 在 R 里 实现 的 正则 表达 式 
语法 通常 能 支持 一 组 不 同 的 解决 方案 。 问 题 在 于 ， 这 些 解决 方案 产生 的 结果 可 能 对 于 特定 的 待 处 理 文字 样本 没有 区 别 ， 但 是 当 用 到 新 数据 上 的 
时 候 ， 它 们 就 会 出 现 差异 。 这 样 就 会 让 调试 工作 变 得 异常 复杂 。 一 些 有 用 的 工具 能 让 正则 表达 式 的 制定 更 方便 ， 例 
如 ，http://regex101.com/ 或 http://www.regexplanet.com/。( 这 些 网 页 提供 了 对 给 定 正则 表达 式 在 文本 输入 样本 上 的 实时 匹配 结果 ， 这 样 
就 让 正则 表达 式 的 编写 过 程 更 具 交 互 性 。 总 体 而 言 ， 我 们 在 正则 表达 式 编 写 过 程 中 遵循 两 种 策略 之 一 。 第 一 种 是 从 某 个 特殊 情况 出 友 ， 继 而 发 
展 到 能 抓 取 每 个 片段 的 更 通用 的 解决 方案 。 例 如 ， 一 开始 只 有 一 条 信息 匹配 上 了 正则 表达 式 ， 这 个 正则 表达 式 就 是 这 条 信息 本 身 ， 作 为 字符 形 
式 与 它 自己 匹配 上 了 。 而 第 二 种 策略 是 以 一 个 通用 表达 式 作为 开端 ， 然 后 引入 限制 条 件 或 例外 处 理 ， 把 匹配 字符 串 的 数量 限定 到 期 望 的 样本 。 
大 家 可 以 标记 第 一 种 方法 为 “归纳 法 ”， 第 二 种 方法 为 “演绎 法 ”。 “演绎 法 ”很 可 能 更 有 效率 ， 因 为 它 始 于 一 个 抽象 层 ， 而 正则 表达 式 往 往 
就 是 抽 稼 的 ， 但 它 也 通常 需要 对 正则 表达 式 具 备 更 深入 的 知识 。 另 外 一 种 居于 两 者 之 间 的 可 行 策 略 ， 是 从 几 个 比较 不 一 样 的 信息 片段 开始 进行 
匹配 ， 然 后 找到 适合 所 有 情况 的 诀窍。 


一 旦 正则 表达 陈 编 写 好 了 ， 提 取信 息 束 是 下 一 步 的 事情 (©) 。 正 如 第 8 章 所 讲解 的 ，stringr 组 件 (Wickham 2010) 对 于 这 个 目的 相当 有 
用 ， 还 可 能 和 类 似 于 apply 函 数 〈 本 地 R 函 数 或 在 plyr 组 件 (Wickham 2011) 里 提供 的 尔 数 ) 搭配 ， 用 于 对 文档 的 高 效 循环 操作 。 


在 最 后 一 步 (©) ， 代 码 必须 要 进行 调试 。 把 正则 表达 式 运 用 到 整个 字符 串 样 本 上 的 时 候 ， 很 有 可 能 会 冒 出 更 多 的 问题 ， 如 假 阳 性 ， 也 束 
是 已 经 锐 匹 配 的 信息 其 实 本 来 不 应 该 匹配 上 ， 或 假 阴 性 ， 也 就 是 某 些 应 该 匹配 上 的 信息 实际 上 却 没 有 补 丐 配 上 。 有 时 候 为 了 事先 排除 假 阳 性 ， 
有 必要 在 进行 正则 表达 了 式 匹 配 之 前 分 拆 文档 或 删除 文档 的 特定 部 分 。 


9.2.1.1 ”正则 表达 式 用 于 网 络 抓 取 的 优势 


用 正则 表达 式 抓 取 数 据 的 优势 有 哪些 ”很 多 老练 的 网 络 抓 取 者 的 观点 是 ， 其 实 它 没有 多 少 优势 。 不 过 ， 我 们 认为 有 一 些 情况 下 ， 纯 粹 基于 
正则 表达 式 的 方法 比 其 他 任何 策略 都 更 先进 。 


正则 表达 式 并 不 按 文档 的 上 下 文 定义 ( 即 文档 结 构 ) 部 分 进行 操作 。 相 比 XPath 策 略 ， 在 XML 或 HTML 网 页 的 结构 不 正确 的 情况 下 ， 这 是 一 
个 优势 。 当 DOM 解 析 器 失效 时 ， 正 则 表达 式 并 不 知道 处 理 的 文档 是 DOM 结 构 ， 会 继续 搜索 信息 。 此 外 ， 要 从 一 组 异 构 文档 (也 就 是 存在 
HTML、XML、CSV、TXT 之 类 的 多 种 格式 的 多 个 文档 ) 中 检索 信息 ， 只 要 它们 能 转化 为 纯 文 本 格式 ， 正 则 表达 式 束 能 处 理 它们 。 忆 体 而 言 ， 正 
则 表达 式 对 于 解析 无 结构 文本 是 很 强大 的 。 


字符 串 特 征 对 于 从 文档 中 识别 和 提取 内 容 应 该 是 最 高 效 的 。 比 如 ， 在 某 个 情况 下 你 要 抓 取 一 批 URL， 而 它们 分 散在 一 个 文档 里 ， 并 具备 共 
同 的 字符 串 特性 ， 例 如 ， 在 URL 里 包含 一 个 连续 的 率 引 。 虽 然 通过 搜索 锚 标签 ( 即 <a> 标 签 ) 也 许 能 识别 这 些 URL， 但 你 还 需要 企 第 二 步 通过 
正则 表达 式 的 手段 对 查找 的 URL 进 行 整理 。 


正则 表达 式 抓 取 可 能 比 基 于 XPath 的 抓 取 更 快 ， 尤 其 是 当 文 档 很 大 、 解 析 整 个 DOM 耗 时 很 久 的 时 候 。 不 过 ， 这 个 速度 优势 并 非 放 之 四 海 省 
准 ， 而 且 构 建 正 则 表达 式 或 XPath 查 询 的 时 间 也 是 构成 速度 的 一 方面 。 此 外 ， 毕 竟 尽 还 有 比 速度 更 重要 的 因素 。 


最 后 ， 正 则 表达 式 是 用 于 数据 清理 很 有 用 的 工具 ， 因 为 它们 能 让 我 们 以 所 需 的 形态 提取 信息 。 
9.2.1.2 ”正则 表达 式 用 于 网 络 抓 取 的 务 势 


只 要 文档 里 的 信息 是 相互 关联 的 ， 并 且 在 采集 之 后 需要 保持 原 有 结构 ， 正 则 表达 式 就 有 点 捉 衬 见 有 时 了 。 没 有 上 下 文 结构 的 数据 往往 不 那么 
有 用 。 回 顾 一 下 第 8 草 的 入 门 例子 。 从 无 结构 文档 提取 电话 号 码 束 已 经 是 个 复杂 的 任务 了 ， 而 如 果 文 档 没有 固定 结构 ， 匹 配对 应 的 姓名 往往 近 平 
不 可 能 。 在 从 网 页 抓 取 信息 的 时 候 ， 如 果 把 正则 表达 式 作为 标准 的 抓 取 工具 不 放 ， 融 意味 着 无 视 网 站 天 生 具 备 的 层次 化 、 甚 全 有 时 具备 语义 化 
结构 的 优点 。 标 记 融 是 结构 ， 昌 然 用 正则 表达 式 也 可 以 检索 标记 ， 但 是 在 DOM 里 锚 定 的 元 素 通 单 用 XPath 碍 询 的 手段 进行 提取 的 效率 更 高 。 


此 外 ， 正 则 表达 式 是 比较 难 掌握 的 。 创 建 正 则 表达 式 是 个 脑筋 急 转 要 游戏 。 有 时 候 ， 对 于 我 们 需要 提取 的 信息 ， 识 别 并 构建 它 的 特征 是 非 


常 有 挑战 性 的 。 另 外 ， 由 于 它们 的 复杂 性 ,我们 很 难看 懂 一 个 正则 表达 式 里 的 逻辑 。 这 就 给 调试 正则 表达 式 抓 取代 码 市 来 了 难度 ， 尤 其 是 当 你 
对 该 抓 取 程序 了 解 尚 少 的 情况 下 。 


很 多 抓 取 任务 用 正则 表达 式 无 法 解决 ， 融 是 因为 要 抓 取 的 内 容 过 于 异 构 化 了 。 这 意味 背 它 无 法 被 抽象 并 格式 化 出 来 一 个 通用 的 字符 串 特 
征 。XML/HTML 网 页 的 结构 是 内 在 具有 层次 的 。 有 时 候 这 种 层次 意味 着 在 你 最 终 的 数据 集 里 有 不 同 层次 的 记录 。 如 果 要 单独 用 正则 表达 式 理 清 
这 些 信 息 ， 那 会 是 一 个 相当 复杂 的 任务 。 如 果 正 则 表达 式 利用 了 形成 文档 结构 的 节点 ， 那 么 正则 表达 式 策 略 很 快 整 会 变 得 非常 脆弱 。 在 文档 结 
构 中 的 增 量 修改 会 让 它 衣 并。 我 们 已 经 观察 到 这 类 错误 在 使 用 XPath 的 时 候 更 容易 修复 。 


正则 表达 式 的 有 用 程度 至 少 要 取决 于 要 查找 信息 的 类 型 。 如 果 网 站 上 的 内 容 能 以 通用 字符 串 特 征 的 手段 抽象 出 来 ， 很 可 能 束 应 该 使 用 正则 
表达 式 ， 因 为 它们 对 于 页 面 布局 的 变化 更 具 健壮 性 。 即 使 你 更 喜欢 用 XPath 工作 ， 正 则 表达 式 仍然 是 该 过 程 中 的 重要 工具 。 第 一 ， 当 解析 失效 
时 ， 正 则 表达 陈 可 以 构成 “最 终 防 线 ”。 第 二 ， 当 内 容 抓 取 下 来 后 ， 所 需 的 信息 往往 并 不 是 一 个 萝卜 一 个 坑 地 划分 好 的 ， 而 是 仍然 处 于 原始 文 
本 状态 。 正 则 表达 式 对 于 数据 清理 工作 极其 有 用 ， 如 字符 串 蔡 换 、 字 符 串 删除 和 字符 串 拆 分 。 


在 本 书 第 三 部 分 ,我 们 提供 了 一 个 主要 依赖 正则 表达 式 从 网 络 源 抓 取 数 据 的 应 用 。 在 第 13 章 ， 我 们 尝试 把 一 个 无 结构 的 表格 ， 即 在 网 络 上 
有 时 会 遇 到 的 “结构 ”， 转 换 为 合适 的 R 数 据 结构 。 


9.2.2 XPath 


虽然 用 XPath 进 行 数据 抓 取 的 细节 和 正则 表达 式 抓 取 不 一 样 ， 但 是 它们 的 路 线 图 还 是 相当 近似 的 。 我 们 在 图 9-7 里 已 经 描述 了 XPath 抓 取 路 
径 的 框架 。 首 先 ， 我 们 识别 保存 在 XML/HTML 里 因而 可 以 通过 XPath 查 询 访 问 的 相关 信息 (第 @ 步 ) 。 为 了 识别 信息 源 ， 我 们 可 以 在 浏览 器 里 
利用 Web 开 发 者 工具 对 源 代 码 进 行 检查 。 


RPE XML/HTML 文档 中 的 信息 


WAE XML/HTML, A, Web 开发 者 工具 


下 载 文 档 / 网 站 





xmlParse(), htmlParse(), 9 f4 


提取 信息 


XPath 配套 XML 组 件 运用 ， 正 则 表达 式 





图 9-7 ”用 XPath 进行 数据 抓 取 


第 @ 步 和 正则 表达 了 式 抓 取 方 法 是 相同 的 。 我 们 要 把 所 需 的 资源 下 载 到 本 地 硬盘 。 原 则 上 ， 我 们 可 以 跳 过 这 一 步 并 直接 “从 网 页 上 ”解析 该 
文档 。 不 管 是 哪 种 方式 ， 资 源 的 内 容 都 必须 从 服务 器 上 获取 ， 而 通过 首先 把 它 保存 到 本 地 ， 我 们 就 可 以 重复 解析 过 程 而 无 须 多 次 抓 取 该 文档 。 


在 第 @ 步 ， 我 们 要 利用 XML 组 件 的 解析 器 对 下 载 的 文档 进行 解析 。 我 们 建议 在 这 一 步 解决 字符 编码 问题 ， 越 晚 解决 潜在 的 编码 问题 ， 处 理 
尼 束 越 困 难 。 我 们 已 经 学 习 了 给 文档 划分 子 集 和 解析 (如 SAX 解 析 万 法 ) 的 不 同 技 术 。 我 们 到 底 选 择 哪 个 万 法 ， 束 取决 于 数据 源 的 需求 或 限制 


条 件 。 


在 第 @ 步 通过 指定 一 个 或 多 个 XPath 查 询 来 提取 实际 信息 。 使 用 XPath 越 频繁 ， 这 一 步 就 会 变 得 越 直观 。 作 为 起 始 ， 我 们 推荐 两 种 基本 过 


程 。 第 一 种 是 用 SelectorGadget 构 建 XPath 表 达 式 (参见 4.3.3 节 ) 。 它 会 返回 一 个 通常 管用 的 表达 式 ， 但 是 对 于 你 想 表 达 的 查询 ， 它 有 可 能 不 
是 最 有 效率 的 方法 。 另 一 种 策略 是 日 手 起 家 。 我 们 发 现在 这 个 方面 采用 “逆向 推理 法 ”是 最 直观 的 。 这 个 方法 的 意思 是 ,我 们 先 定义 实际 信息 
的 位 置 ， 然 后 把 它 作 为 起 点 对 表达 式 进 行 改进 ， 通 常 沿 着 (DOM) 树 向 上 ， 直 到 表达 式 唯 一 识别 我 们 查找 的 信息 。 有 人 可 以 标注 这 种 方法 为 自 
底 向 上 的 搜索 过 程 ， 不 管 我 们 如 何 命名 ， 它 都 有 助 于 构建 更 简洁 的 表达 式 ， 可 能 也 会 在 文档 结构 有 重大 变更 时 具备 更 好 的 健壮 性 。 


一 旦 我 们 构建 了 合适 的 XPath 表 达 式 ， 从 文档 提取 信息 (BOD) 融 很 容易 了 。 我 们 可 以 把 该 表达 式 运 用 到 XML 组 件 的 大 量 函 数 中 。 最 理 
想 的 过 程 是 利用 xpathSApply () 调用 一 个 XML 提 取消 数 (参见 表 4-4) 。 在 实践 中 ， 第 @ 步 和 第 @ 步 是 不 加 区 分 的 。 找 到 合适 的 XPath 表 达 式 
是 一 个 反复 试 错 的 过 程 ， 我 们 会 频繁 在 表达 式 构建 和 信息 提取 之 间 跳 转 。 此 外 ，XML 提 取 器 函数 往往 不 会 如 我 们 所 愿 地 产生 清晰 可 辨 的 结果 ， 
而 且 把 片段 化 的 信息 拼凑 成 形 需 要 不 止 一 次 迭代 。 假 如 我 们 要 从 一 个 购物 网 站 提取 对 产品 的 评价 。 虽 然 这 些 评价 可 能 每 个 都 保存 在 DOM 的 叶子 
节点 上 ， 我 们 可 能 需要 从 评价 文本 的 一 部 分 提取 出 更 多 的 信息 ， 但 是 这 些 信息 是 以 明显 (manifest， 如 单词 、 字 数 ) 或 隐 合 (latent， 如 情 
感 、 阶 层 ) 的 方式 人 存在 的 。 我 们 可 以 通过 正则 表达 陈 或 更 先进 的 文本 挖掘 算法 来 提取 这 个 层次 的 信息 。 


在 最 后 的 第 @ 步 ， 我 们 需要 调试 并 维护 代码 。 同 样 ， 这 实际 上 并 不 是 最 后 一 步 ， 而 是 一 个 迭代 过 程 的 一 部 分 。 
9.2.2.1 XPath 的 优势 

我 们 已 经 强调 过 ， 对 于 从 静态 HTMLV/XML 抓 取 内 容 ， 认 为 XPath 优 于 正则 表达 式 。XPath 是 处 理 XML 风 格 文件 的 理想 伙伴 ， 因 为 它 本 来 就 
是 明确 为 此 用 途 而 设计 的 。 这 让 它 成 为 了 访问 XML/HTML 文 件 里 内 容 最 强大 、 灵 活 、 易 于 学 习 和 编写 最 健壮 的 工具 ，。 


更 具体 地 说，XPath 专 门 为 XML 文档 设计 这 一 事实 使 得 XPath 碍 询 的 编写 和 阅读 都 非 党 直观。 要 是 把 它 与 正则 表达 了 式 相 比 残 更 是 如 此 ， 正 则 
表达 式 是 基于 文字 内 容 而 不 是 上 下 文 结构 定义 的 。 因 为 上 下 文 符合 一 套 清晰 定义 的 结构 ， 所 以 XPath 查 询 更 容易 使 用 ， 尤 其 是 对 于 常见 的 案 
例 。 


XPath 也 是 一 种 表达 能 力 强 的 语言 ， 因 为 它 通过 多 种 多 样 的 特征 ， 让 抓 取 任 务 能 够 获取 有 天 节点 的 充分 信息 。 我 们 可 以 使 用 节点 的 名 字 、 
数字 或 字符 特性 、 与 其 他 节点 的 关系 ,以 及 用 于 表示 内 容 的 属性 。 单 个 节点 可 以 通过 这 些 手段 进行 唯一 的 定义 。 此 外 ， 利 用 XPath 是 高 效 的 ， 
因为 它 以 相对 最 小 化 的 代码 输入 惑 能 返回 节点 集 。 


因为 这 种 策略 主要 依赖 于 文档 的 结构 化 特性 ，XPath 查 询 对 于 内 容 的 变化 是 健壮 的 。 特 定 的 内 容 基本 上 是 异 构 的 ， 如 新 闻 公 告 、 客 户 评 价 
以 及 维基 百科 词 条 。 只 要 页 面 的 基本 结构 保持 不 变 ，XPath 抓 取 策 略 束 能 保持 有 效 。 


9.2.2.2 ”XPath 的 劣势 


时 然 XPath 对 于 抓 取 任务 总 体 来 说 优 于 正则 表达 式 ， 也 有 一 些 情况 下 XPath 抓 取 是 无 效 的 。 


当 解 析 器 无 效 时 ， 也 就 是 说 当 它 不 能 产生 文档 的 合法 表征 时 ，XPath 查 询 基 本 上 就 没 用 了 。 虽 然 我 们 的 浏览 器 可 能 会 对 结构 错误 的 HTMLWY 
页 具备 容错 能 力 ， 仍 然 能 够 正确 解释 它们 ， 但 是 R 里 的 XML 解 析 器 就 不 行 了 。 如 果 我 们 在 处 理 非 XML 风 格 的 数据 ，XPath 表 达 式 也 不 会 有 什么 帮 
助 


o 


在 一 个 脆弱 多 变 的 环境 里 ， 对 于 定义 清晰 的 特征 ， 要 想 用 XPath 表 达 式 和 正则 表达 式 抓 取 方 法 做 到 优势 互补 ， 如 果 遇 到 的 是 高 度 多 样 化 的 
上 下 文 ( 例 如， 网 页 布局 会 经 常 友 生变 化 ) ， 那 么 提取 信息 器 是 很 困难 的 。 


9.2.3 ”应 用 编程 接口 


从 应 用 编程 接口 (API) /Web 服 务 采 集 数 据 是 网 络 数 据 采 集 的 黄金 标准 ， 这 一 点 基本 没有 争议 。 从 HTML 网 站 抓 取 数 据 往往 是 个 困难 的 活 
儿 。 我 们 必须 先 识 别 相 天 数据 保存 在 HTML 树 的 哪个 位 置 ， 还 要 搞 清 如 何 去 挥 不 需要 的 其 他 任何 内 容 。 而 APl 准 确 提供 了 我 们 所 需 的 信息 ， 没 有 
任何 的 见 余 。API 标 准 化 了 数据 分 友 的 流程 ， 但 又 让 提供 者 保留 了 对 谁 能 访问 哪些 数据 的 控制 权 。 开 发 者 可 以 使 用 不 同 的 编程 语言 访问 APIl， 也 
可 以 把 获取 的 数据 用 于 很 多 不 同 的 用 途 。Web 服 务 还 支持 提供 大 部 分 编程 语言 能 够 处 理 的 标准 化 格式 。 
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图 9-8 ”通过 API 进 行 数据 采集 


我 们 用 图 9-8 概 括 了 在 R 里 通过 APl 进 行 的 数据 采集 流程 。 在 第 @ 步 ， 我 们 必须 找到 一 个 APIl 并 熟悉 其 使 用 条 款 或 限制 条 件 以 及 可 用 的 方法 。 
对 于 商业 化 的 API 而 言 ， 如 果 你 不 按 月 支付 费用 ， 它 们 可 能 会 (对 数据 访问 ) 有 很 严格 的 限制 或 者 根本 不 提供 数据 ， 所 以 你 必须 尽早 弄 清楚 如 何 
支付 才能 获取 何 种 数据 。 还 有 ， 不 要 把 时 间 花 在 不 靠 谱 的 接口 上 ， 并 不 是 所 有 的 Web 服 务 都 有 很 好 的 维护 。 在 你 开始 为 一 个 已 有 的 API 编 写 包 
痰 程序 之 前 ， 搞 清楚 这 个 APl 是 否 会 定期 更 新 。 在 http://www.programmableweb.com/apis 上 的 API 目 录 也 会 在 服务 被 废弃 或 转移 到 其 他 地 方 
时 给 出 相应 的 说 明 。 


第 @ 步 和 第 @ 步 是 可 选 的 。 某 些 Web 服 务 会 要 求 用 户 注 册 。 而 各 家 的 身份 验证 或 授权 方法 也 不 尽 相 同 。 有 时 候 通 过 email 注 册 并 获取 一 个 要 
随 每 次 请 求 提交 的 个 人 密 钥 就 够 了 。 其 他 身份 验证 的 方式 是 基于 用 己 名 和 密码 组 合 的 。9.1.11 节 讲解 的 通过 OAuth 进 行 的 身份 验证 束 会 更 加 复 


杂 


在 第 @@ 步 ， 我 们 构造 一 个 对 API 的 调用 去 请 求 资 源 。 如 果 和 幸运 ， 我 们 可 以 利用 已 有 的 一 套 提 供 了 和 该 AP|I 接 口 的 R 国 数 。 我 们 在 9.4 节 推荐 了 
一 些 可 用 的 代码 库 ， 它 们 也 许 能 为 处 理 某 个 APlI 提 供 有 用 的 R 软 件 代码 块 。 不 过 ， 由 于 可 用 的 Web 服 务 数量 迅速 增长 ， 有 时候 我 们 必须 编写 自己 
ARETE. Beets (Wrapper) 是 包 六 了 已 有 软件 的 软件 片段 。 在 我 们 的 案例 里 ， 就 是 能 够 使 用 R 遂 数 去 调用 某 个 APl， 并 让 从 API 获 取 的 
数据 可 以 在 R 里 进一步 处 理 的 代码 。 


在 第 @ 步 ， 我 们 处 理 接收 到 的 数据 。 这 一 步 的 做 法 取决 于 Web 服 务 提交 的 数据 格式 。 在 第 3 章 ， 我 们 已 经 学 习 了 如 何 利 用 XML 和 jsonlite 组 
件 中 的 工具 解析 XML 和 JSON 数 据 ， 并 最 终 把 它们 转换 为 R 对 象 。 提 供 了 现成 Web 服 务 接口 的 R 组 件 (参见 9.4 节 ) 通常 可 以 照顾 到 这 一 步 ， 因 此 
它们 用 起 来 是 相当 顺手 的 。 


一 如 既往 地 ， 我 们 必须 定期 检查 和 调试 代码 (FOF) 。 注 意 这 个 事实 : API 的 特性 和 指南 有 可 能 随 着 时 间 变 化 。 
9.2.3.1 ”使 用 API 的 优势 


Web 服 务 相 比 其 他 技术 所 具备 的 优势 来 源 于 这 样 一 个 事实 : 从 API 获 取 数 据 实际 上 不 是 网 络 抓 取 。 屏 幕 抓 取 、 格 式 错 误 的 HTML、 其 他 从 健 
壮 性 到 合法 性 的 问题 ， 这 些 对 于 从 Web 服 务 采 和 集 数 据 来 说 都 不 存在 。 其 结果 是 ， 我 们 可 以 信赖 更 整洁 的 数据 结构 ， 并 对 采集 结果 具有 更 高 的 信 
心 。 

此 外 ， 通 过 为 某 个 API 注 册 一 个 应 用 ,我 们 丈 在 提供 者 和 用 户 之 间 达 成 了 一 个 协议 。 从 稳定 性 角度 说 ， 来 自 有 维护 的 API 的 数据 库 的 更 新 频 
率 更 高 。 而 对 于 从 HTML 抓 取 数 据 ， 我 们 往往 对 此 更 没有 把 握 。 某 些 API 提 供 了 对 独家 内 容 的 访问 ， 这 是 通过 其 他 渠道 无 法 获取 的 。 从 透明 度 角 
度 而 言 ， 由 于 数据 访问 程序 对 很 多 计算 机 语言 都 是 标准 化 的 ， 对 于 来 自 Web 服 务 的 数据 ， 相 关 项 目 里 的 数据 采集 流程 也 可 以 重复 使 用 到 其 他 软 
件 环 境 里 。 

由 于 Web 服 务 的 重点 在 于 交付 数据 而 不 是 布局 ， 总 体 而 言 ， 这 会 让 我 们 的 代码 更 健壮 。Web 服 务 通 音 是 满足 某 个 特定 需求 的 ， 我 们 往往 也 
不 是 对 该 数据 感 兴趣 的 唯一 用 户 。 如 果 很 多 人 从 各 种 编程 环境 创建 该 API 的 接口 ， 那 么 我 们 就 可 以 从 这 种 “群众 的 智慧 ”中 获 益 ， 并 让 我 们 的 代 
码 更 健壮 。 


忌 而 言 之 ，API 提 供 了 重要 的 优势 ， 让 它们 (如 果 可 用 ) 成 为 了 任何 涉及 自动 化 在 线 数据 采集 的 项 目的 候选 数据 源 。 


9.2.3.2 ”使 用 API 的 务 势 


作为 本 书 大 部 分 内 容 的 驱动 力 的 ， 是 这 样 一 个 事实 : 网 络 上 绝 大 多 数 资源 还 不 能 通过 Web API 进 行 访 问 。 对 于 作为 数据 采集 工具 的 Web 服 
务 本 身 ， 这 其 实 也 算 不 上 什么 缺 点 ， 而 只 是 反映 了 现实 中 除了 那些 愿意 给 数据 库 提 供 整洁 访问 方式 的 数据 提供 者 ， 网 上 还 有 其 他 数据 源 也 是 人 
们 想 要 利用 的 。 


虽然 把 API 用 于 自动 化 数据 采集 没有 太 多 一 般 性 的 劣势 ， 但 依赖 于 Web 服 务 的 基础 架构 可 能 还 是 有 其 自身 的 不 足 之 处 的 。 数 据 提供 者 可 以 
随意 决定 限制 其 API 的 功能 ， 正 如 一 些 流行 的 社交 媒体 API 所 做 的 那样 。 


从 R 的 角度 来 说 ， 我 们 必须 承认 ， 我 们 工作 的 软件 环境 和 普通 Web 服 务 产生 的 数据 格式 还 不 具备 自然 的 联系 。 


不 过 ，Web 服 务 的 优势 往往 能 轻易 超过 它 的 务 势 ， 因 为 潜在 的 务 势 并 不 一 定 适用 于 每 个 Web 服 务 ， 出 现 某 些 缺 点 的 一 部 分 原因 也 和 我 们 及 
用 的 其 他 方法 有 天。 


1] 要 获取 更 完整 的 概况 ， 请 参见 http://scraping.pro/10-best-online-regex-testers/。 


9.3 网络 抓 取 : 民 好 实践 


9.3.1 ”网 络 抓 取 是 否 合 ; 


在 本 书 的 免责 声明 部 分 ,我们 特别 提出 了 对 非 授权 使 用 或 复制 他 人 知识 成 果 行 为 的 告 诚 。 正 如 Dreyer and Stockton (2013) 所 这 
的 : “数据 抓 取 不 可 避免 地 会 涉及 复制 ， 因 此 ， 对 于 抓 取 者 最 明显 的 一 项 指控 束 是 知识 产权 侵权 行为 。” 我 们 的 建议 是 尽 可 能 把 工作 透明 化 ， 
并 随时 记录 你 的 数据 来 源 。 但 束 算 你 遵循 了 这 些 规 则 ， 在 合法 抓 取 公 开 内 容 和 侵犯 版 权 或 其 他 法 律 侵权 行为 之 间 的 界线 在 哪里 呢 ? 即 使 对 那些 
专门 从 事 互 联网 问题 的 律师 来 说 ， 网 络 抓 取 的 案例 看 起 来 也 是 个 困难 的 事情 。 此 外 ， 由 于 现行 法 律 在 各 个 国家 都 有 所 不 同 ， 很 不 幸 ， 对 于 人 在 什 
么 情况 下 如 何 做 是 合法 的 ， 我 们 无 法 给 出 全 面 的 忌 结 。 为 了 让 你 对 当前 看 起 来 合法 的 情况 有 个 印象 ,我 们 提供 了 过 去 的 一 些 判决 的 传闻 证 据 。 
但 是 你 必须 清楚 ， 不 要 依赖 这 些 案例 中 的 任何 一 个 来 为 自己 的 所 作 所 为 进行 辩护 。 


大 部 分 关键 的 判例 都 涉及 商业 利益 。 常 见 的 场景 是 某 公司 从 另 一 家 公司 抓 取 了 信息 进行 处 理 并 转手 倒卖 了 。 在 经 典 的 eBay 与 Bidder”s 
Edge 案 件 [ 中 ，eBay 成 功 地 保卫 自己 ， 抵 御 了 在 他 们 网 站 上 使 用 的 机 器 人 。Bidder s Edge (BE) 是 一 家 聚合 拍卖 清单 的 公司 ， 使 用 自动 化 
程序 从 不 同 的 拍卖 网 站 抓 取 信息 。 然 后 用 户 就 可 以 在 BE 的 网 站 上 搜索 拍卖 清单 ， 而 无 须 对 每 个 拍卖 网 站 发 布 很 多 请 求 。 根 据 裁决 的 内 容 ， 吕 | 


BE 每 天 会 对 eBay 网 站 进行 大 约 100000 次 访问 。 (…) eBay 声称 在 1999 年 10 月 和 11 月 的 某 个 期 间 ，BE 在 他 们 网 站 上 的 活动 占 到 了 eBay 接收 请 
求 数 的 1.53%， 而 从 eBay 传输 的 数据 则 占 到 了 总 流量 的 1.10%。 
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eBay 声 称 ， 在 为 期 10 个 月 的 时 间 段 里 ， 包 括 1999 年 的 7 个 月 及 2000 年 的 头 3 个 月 ， 由 于 BE 的 活动 给 他 们 带 来 的 损失 总 计 在 45323 和 61804 美 元 


之 间 。 


被告 方 并 没有 窍 取 非 公开 的 信息 ， 但 是 由 于 对 服务 器 产生 相当 大 的 流量 而 伤害 了 原告 方 的 利益 。eBay 还 所 控 了 深层 链接 的 使 用 ， 也 束 是 用 
一 个 链接 直接 指向 本 来 存放 在 页 面 “ 深 处 ”的 内 容 。 通 过 使 用 这 样 的 链接 ， 客 户 端 束 可 以 绕 过 通常 的 网 站 访问 过 程 。 


在 另 一 个 Associated Press ( 美 联 社 ，AP) 与 Meltwater 的 判例 中 ， 抓 取 者 的 权利 也 唱 到 了 剥夺 站 。Meltwater 是 一 个 提供 根据 关键 字 抓 
取 新 闻 信 息 的 软件 公司 。 它 的 客户 可 以 订阅 新 闻 主 题 的 汇总 ， 其 中 包含 了 相关 新 闻 文 章 的 摘要 。 美 联 社 (AP) 认为 ， 他 们 的 内 容 被 Meltwater 
窃取 了 ， 而 被 告 方 在 友 布 这 些 内 容 之 前 需要 获得 许可 权 。 法 官 偏向 美 联 社 的 观点 是 ， 与 其 说 Meltwater 是 Google News 那 样 的 普通 搜索 引擎 ， 
还 不 如 说 它 是 美 联 社 的 竞争 对 手 。 但 从 更 长 远 的 角度 来 说 ， 很 难看 出 Meltwater 和 其 他 像 Google News 这 样 的 新 闻 聚 集 服务 有 什么 差别 
(Essaid 2013b; McSherry and Opsahl 2013) 。 


男 一 个 庭 外 和 解 的 案例 是 程序 员 Pete Warden， 他 从 Facebook 用 户 的 个 人 信息 中 抓 取 了 一 些 基本 信息 (Warden 2010) 。 他 的 思路 是 利 
用 这 些 数据 提供 一 套 服 务 ， 帮 助 管 理 跨 服 务 的 通信 和 社区 网 络 。 他 形容 抓 取 的 过 程 是 “非常 简单 的 ”， 而 且 遵 守 了 robots.txt 的 要 求 (参见 9.3.2 
P) ， 这 里 的 robots.txt 是 指 Facebook 放 在 网 页 上 的 非 正 式 的 网 络 机 器 人 指南 。 当 他 把 首次 对 数据 进行 视觉 化 的 展示 放 在 他 的 博客 上 


后 ，Facebook 联 系 了 他 并 敦促 他 删除 这 些 数据 。 根 据 Warden 的 说 法 ，“ 他 们 的 观点 是 robots.txt 并 没有 法 律 效力 ， 他 们 可 以 因为 访问 他 们 的 
网 站 起 诉 任何 人 ， 即 使 他 们 一 丝 不 苟 地 遵守 了 其 中 包含 的 规定 。 通 过 把 虫 访问 任何 网 站 的 唯一 合法 方式 束 是 提前 获取 书面 的 许可 。” (Warden 
2010) 。 


在 悲剧 性 的 Aaron Swartz 案 例 中 ， 争 议 的 核心 是 科研 成 果 ， 而 不 是 商业 化 的 复制 使 用 。 共 同 创建 了 RSS (参见 3.4.3 节 ) 、Markdown 和 
Infogami (Reddit 的 前 身 ) 的 大 牛 Swartz 在 2011 年 因为 从 科学 论文 存档 JSTOR 非 法 下 载 了 数 以 百 万 计 的 论文 而 遭 到 逮捕 。 在 Swartz 于 2013 年 1 
月 自杀 身亡 后 ， 这 个 案子 被 撤销 了 (United States District Court District of Massachusetts 2013) 。 


在 一 个 有 趣 和 有 思想 深度 的 评论 里 ，Essaid (2013a) 指出 ， 对 于 网 络 抓 取 问 题 的 审判 在 过 去 几 年 曾经 多 次 改变 风向 ， 现 在 看 起 来 对 合法 和 
非法 行为 并 没有 明确 的 判别 条 件 ， 即 使 在 像 美国 这 样 单个 的 法 律 体系 里 也 是 如 此 。Snell 和 Care (2013) 给 出 了 更 多 的 传闻 证 据 ， 并 将 法 庭 判决 
结果 放 在 法 学 理论 体系 下 进行 了 分 析 。 


从 这 些 令 人 不 安 的 故事 里 ， 我 们 需要 吸取 的 教训 是 ， 现 在 并 不 清楚 “网 络 抓 取 ” 包 含 的 哪些 行为 实际 上 是 违法 的 ， 而 哪些 不 是 。 在 本 书 
中 ， 我 们 的 重点 是 非常 有 针对 性 的 例子 ， 而 与 下 载 页 面 仅 用 于 研究 分 析 相 比 ， 重 新 发 布 内 容 用 于 商业 目的 则 是 严重 得 多 的 问题 。 我 们 看 到 的 大 
部 分 起 诉 都 涉及 商业 目的 。 不 过 ，Facebook vs.Warden 的 案子 表明 ， 即 便 遵守 了 像 robots.txt 里 声明 的 非 正式 规则 ， 也 不 能 免 于 被 起 诉 的 后 
果 。 但 是 毕竟 如 ScraperWiki 的 Frances lrwing 所 说 ，“Google 和 Facebook 有 效 地 让 网 络 抓 取 成 长 起 来 ”， 如 果 以 前 就 有 这 么 严格 的 对 数据 抓 
取 的 限制 ， 互 联网 到 今天 就 不 会 是 我 们 现在 看 到 的 这 个 样子 了 。 约 


在 下 面 的 几 行 ， 我 们 会 讲解 如 何 识 别 非 正 式 网 络 抓 取 规 则 ， 以 及 思 体 上 怎样 做 到 行为 得 体 ， 从 而 把 让 自己 处 于 困难 境地 的 风险 降低 到 最 


小 。 


9.3.2 ”robots.txt 简 介 


当 你 刚 开始 为 自己 的 目的 搜集 网 站 的 时 候 ， 你 很 可 能 只 是 巨大 的 数据 海洋 中 的 一 条 小 鱼 。 除 了 你 ， 网 络 机 器 人 (EEUE “MER” “bee ial 
Pe” 或 “机 器 人 ”) 也 在 寻找 内 容 。 并 非 所 有 这 些 上 自动 化 采集 者 都 有 有 恶意 行为 。 如 果 没 有 机 器 人 ， 互 联网 上 的 一 些 基础 服务 融 无 法 工作 。 像 
Google 或 Yahoo 这 样 的 搜索 引擎 都 利用 了 网 络 机 器 人 来 保持 它们 的 索引 得 到 及 时 更 新 。 不 过 ， 网 站 维护 者 有 时 候 至 少 会 荣 止 某 些 内 容 被 抓 取 ， 
例如 ， 他 们 会 让 服务 器 流量 情况 对 外 保密 。 这 正 是 robots.txt 文 件 的 用 途 所 在 。 这 个 “机 器 人 排除 协议 ”会 告诉 机 器 人 站 点 上 的 哪些 信息 是 可 以 


采集 的 。 


robots txt 起 源 于 某 个 邮件 列表 的 讨论 ， 并 由 Martijn Koster (1994) 倡议 提出 。 它 的 思路 是 ， 利 用 保存 在 网 站 的 根 目录 下 的 一 个 文本 文件 
(420, www.r-datacollection.com/robots.txt) ， 在 里 面 指明 哪些 信息 允许 或 不 允许 网 络 机 器 人 访问 。robots.txt 并 无 一 个 官方 的 标准 可 供 
遵循 ， 这 一 事实 导致 了 不 一 致 性 和 语法 无 限制 的 扩展 。 不 过 ， 有 一 组 规则 是 大 部 分 互联 网 上 的 robots.txt 所 遵守 的 。 这 组 规则 是 按 机 器 人 逐个 列 
举 的 。 对 于 Googlebot 机 器 人 的 一 组 规则 如 下 所 示 : 


User-agent: Googlebot 
Disallow: /images/ 


Ww N = 


Disallow: /private/ 





这 组 规则 用 来 告诉 在 User-agent 字 段 里 指定 的 Googlebot 机 器 人 ， 不 要 抓 取 来 自 子 目 录 /images/ 和 /private/ 的 内 容 。 回 已 一 下 5.2.1 节 的 
内 容 ， 我 们 可 以 利用 User-Agent 字 段 让 自己 可 识别 。 行 为 展 好 的 网 络 机 器 人 就 应 该 在 robots.txt 的 清单 里 里 寻找 自己 的 名 字 ， 并 遵守 对 应 的 规 
则 。Disallow 字 段 可 以 包含 局 部 或 完整 的 URL。 规 则 也 可 以 通过 星 号 (*) 进行 广义 化 。 


| User-agent: * 
2 Disallow: /private/ 





这 意味 着 任何 没有 明确 注 明 (为 例外 ) 的 机 器 人 都 不 允许 抓 取 /private/ 子 目录 。 一 种 总 体 的 花 令 表述 如 下 : 


| User-agent: * 
2 Disallow: / 





单 科 杠 / 包 含 整个 网 站 。 几 条 记录 之 间 用 一 个 或 多 个 空 行 隔 开 。 


| User-agent: Googlebot 
2 Disallow: /images/ 


3 User-agent: Slurp 
4 Disallow: /images/ 





这 个 基本 规则 集 的 一 个 常用 扩展 是 Allow 字 上段 的 使 用 。 顾 名 思 义 ， 这 个 字段 会 列 出 明确 接受 抓 取 的 目录 。Allow 和 Disallow 规 则 的 组 合 让 网 
页 维护 者 可 以 禁止 抓 取 完 整 的 目录 ， 但 允许 抓 取 在 该 目录 中 特定 的 子 目录 或 文件 。 


User-agent: * 
Disallow: /images/ 
Allow: /images/public/ 


a” WN = 





A—AyxJrobots.txtinvEHsy R EÆCrawl-delayž f, CGERCRHSKZES EEN. E Rm robots.txt#, RitGooglebotil 
取 除 一 个 目录 外 的 所 有 内 容 ， 而 其 他 用 户 可 以 访问 任何 内 容 但 在 每 个 请 求 之 间 必 须 暂 停 2 秒 。 P] 


User-agent: * 
Crawl-delay: 2 


Ww N = 


User-Agent: Googlebot 
Disallow: /search/ 


= 





使 用 robots.txt 的 一 个 问题 是 ， 对 于 有 很 多 子 目录 和 文件 的 大 型 网 站 ， 该 文件 会 变 得 相当 宛 长 。 此 外 ， 某 些 息 虫 的 工作 方式 会 让 它们 无 视 集 
中 式 的 robots.txt。 有 一 种 robots.txt 的 分 布 式 蔡 代 方案 是 robots<meta> 标 签 ， 它 可 以 存放 在 一 个 HTML 文 件 的 header 部 分 。 


| <meta name="robots" content="noindex,nofollow" /> 


行为 展 好 的 机 器 人 不 会 对 包含 了 这 个 <meta> 标 签 的 页 面 进行 索引 (index) ， 因 为 content 属 性 里 有 noindex 值 ; 也 不 会 对 页 面 上 的 任何 
链接 进行 追踪 (follow) ， 因 为 content 属 性 里 有 nofollow 值 。 


本 书 不 是 天 于 网 络 师 蛛 抓 取 数 据 的 ， 而 是 专注 于 为 了 特定 目的 从 特定 站 点 检索 内 容 。 但 是 如 果 我 们 需要 编写 行为 民 好 的 网 络 抓 取 程 序 从 多 


robots.txt， 并 帮助 识别 特定 的 User-agent 以 及 相关 的 访问 规则 。 该 程序 如 图 9-9 所 示 。 


这 个 robotsCheck () 程序 会 读 取 在 第 一 个 参数 robotstxt 里 指定 的 robots.txt。 我 们 可 以 在 第 二 个 参数 useragent 指 定 机 器 人 种 类 或 User- 
agent。 此 外 ， 该 函数 可 以 返回 允许 和 不 允许 的 目录 或 文件 。 这 是 在 dirs 参 数 里 指定 的 。 我 们 在 此 不 会 太 详 细 地 讨论 这 个 程序 ， 不 过 它 很 容易 扩 
展 ， 让 机 器 人 不 抓 取保 存在 禁止 抓 取 目 录 里 的 页 面 。 


则 。 


= 


robotsCheck <- function(robotstxt = "", useragent = "*", dirs = 

"disallowed") { 

2| # packages 

3 | require (stringr) 

4 | require (RCurl1) 

5| # read robots.txt 

é| bots <- getURL(robotstxt, cainfo = system.file("CurlSSL", "cacert.pem", 
package = "RCurl")) 

了 | write (bots, file = "robots.txt") 

8| bots <- readLines ("robots.txt") 

9; # detect if defined bot is on the list 

10 | useragent <- ifelse(useragent == "*", w\\*" useragent) 

ll | bot linel <- which(str detect (bots, str_c("[Uu] ser- 
[Aa]gent:[ ]{0,}", useragent, "$"))) +1 

12| bot listed <- ifelse(length(bot linel)>0, TRUE, FALSE) 

13| # identify all user-agents and user-agent after defined bot 

14) ua detect <- which(str detect (bots, " [Uu] ser- [Aa]gent:[ ].+")) 

15 | uanext line <- ua detect [which (ua detect == (bot linel - 1)) + 1] 

16) # if bot is on the list, identify rules 

17| bot d dir <- NULL 

I8 | bot a dir <- NULL 

19| bot excluded <- 0 

20| if (bot listed) { 


21 bot eline <- which(str detect (bots, ""§")) 

22 bot eline end <- length(which(bot eline - uanext line < 0)) 

23 bot eline end <- ifelse(bot eline end == 0, length(bots), bot eline 
[bot eline end] ) 

24 botrules <- bots[bot linel:bot eline end] 

25 # extract forbidden directories 

26 botrules d <- botrules [str detect (botrules, "[Dd]isallow") |] 

27 bot d dir <- unlist(str extract all(botrules d, "/.{0,}")) 

28 # extract allowed directories 

29 botrules a <- botrules [str detect (botrules, "” [Aa] llow") ] 

30 bot a dir <- unlist(str extract all(botrules a, "/.{0,}")) 

31 # bot totally excluded? 

32 bot excluded <- str detect {bot d dir, ""/§") 

33 | } 


34 | # return results 
35 | if (bot excluded[1]) { message ("This bot is blocked from the site.")} 


36| if (dirs == "disallowed" & !bot excluded[1]) { return(bot d dir) } 
37| if (dirs == "allowed" & !bot excluded[1]) { return(bot_a dir) | 
38 | } 


图 9-9 ”解析 robots.txt 文 件 的 R 人 代码 
我 们 要 针对 Facebook 的 robots.txt 文 件 测试 一 下 该 程序 。 首 先 ， 要 指定 文件 链接 ， 


R> facebook robotstxt <- "http://www.facebook.com/robots.txt" 


下 一 步 ， 我 们 要 检索 禁止 任何 没有 单独 授权 的 机 器 人 抓 取 的 目录 列表 。 如 果 创 建 了 自己 的 机 器 人 ， 这 束 是 我 们 最 有 可 能 必须 遵守 的 一 组 规 


R> robotsCheck (robotstxt = facebook robotstxt, useragent = "*", 
dirs = "disallowed") 
This bot is blocked from the site. 


Facebook 思 体 上 禁止 从 它 的 网 页 上 进行 抓 取 。 为 了 查看 该 程序 的 工作 情况 ， 我 们 给 一 个 叫 作 “Yeti” 的 机 器 人 进行 另 一 次 调用 。 


R> robotsCheck (robotstxt = facebook robotstxt, useragent = "Yeti", 
dirs = "disallowed" ) 
[i] “/ajax/* "/album. php" "/autologin.php" 
[4] "/checkpoint/" "/contact importer/" "/feeds/" 
[7] "/file download.php" "/1.php" nn" 
[10] "/photo.php" "/photo comments.php" "/photo search.php" 
[13] "/photos.php" "/sharer/" 


Facebook 不 允许 “Yeti” 机 器 人 访问 这 一 组 目录 。 很 重要 的 一 点 是 ，robots.txt 和 封 堵 机 器 人 的 防火 墙 或 其 他 保护 机 制 无 天 。 它 本 身 根本 
不 能 防止 网 站 遭 到 蚌 蛛 聆 虫 的 抓 取 。 相 反 ， 这 只 是 来 自 网 站 维护 者 的 一 个 告知 而 已 。 


束 我 们 所 知 ， 还 没有 法 律 明确 规定 茶 止 忽略 robots.txt 的 内 容 。 不 过 ， 我 们 强烈 建议 每 次 你 抓 取 一 个 新 的 网 站 时 都 要 密切 注意 这 个 文件 ， 让 
自己 身份 可 识别 ， 并 在 有 疑问 时 提前 联系 网 站 的 所 有 者 。 


如 果 你 想 学 习 更 多 关于 网 络 机 器 人 及 robots.txt 工 作 原 理 的 知识 ， 网 页 http://www.robotstxt.org/ 会 是 个 很 好 的 开始 。 它 提供 了 有 关 语 法 
更 多 详细 的 解释 ， 以 及 很 有 用 的 一 批 常 见 问题 解答 (FAQ) 。 


9.3.3 ”做 个 友好 的 〈 机 器 ) 人 


并 不 是 所 有 能 抓 取 的 乐 西 都 应 该 被 抓 取 ， 而 且 抓 取 手法 也 有 礼 狐 和 不 礼 狐 之 分 。 你 编写 的 程序 应 该 : 有 良好 的 行为 ， 为 你 提供 所 需 的 数 
据 ， 并 且 有 效率 。 注 意 这 个 顺序 。 我 们 建议 ， 如 果 你 想 要 从 某 个 网 站 或 服务 采集 数据 ， 特 别 是 当 数 据 量 相当 大 的 时 候 ， 一 定 要 遵守 我 们 的 网 络 
抓 取 礼 仪 手册 中 的 要 求 。 该 手册 如 图 9-10 所 示 。 


一 旦 你 识别 了 网 络 上 可 能 有 用 的 数据 ， 你 束 应 该 寻求 一 种 “官方 认可 ”的 方式 去 采集 数据 。 如 果 你 够 押运 ， 友 布 者 可 能 提供 了 该 数据 现成 
的 文件 ， 可 以 免费 下 载 ， 或 者 提供 一 个 API 供 下 载 。 如 果 有 API 可 用 ， 通 常 束 没有 理由 采取 其 他 的 抓 取 策 略 了 。API 让 数据 提供 者 有 能 力 控制 谁 
能 获取 哪些 数据 ， 获 取 多 少 ， 以 及 获取 的 频率 。 


正如 9.2.2 节 所 摘 述 的 ， 从 R 里 访问 API 通 弟 需 要 一 个 或 多 个 包 闪 了 消 数 ， 通 过 包 涂 函数 同 API 友 送 请 求 并 处 理 返 回 的 输出 。 如 果 这 类 包 浴 阅 数 
已 经 有 现成 的 ， 你 所 要 做 的 就 是 熟悉 这 些 程序 并 使 用 它们 。 这 往往 需要 对 应 用 进行 注册 (参见 9.1.11 书 ) 。 一 定 要 记得 说 明 你 的 程序 的 用 途 。 很 
多 API 会 限制 用 户 每 天 只 能 进行 特定 次 数 的 API 调 用 或 提出 类 似 的 限制 条 件 。 这 些 限制 条 件 一 般 都 是 必须 遵守 的 。 


即使 没有 APl， 也 可 能 会 有 比 直 接 抓 取 更 轻松 的 数据 获取 方式 。 根 据 数 据 的 类 型 和 结构 ， 可 以 合理 推测 它 的 后 人 台 有 数据 库 。 实 际 上 你 可 以 通 
过 HTTP 表 单 访问 的 任何 数据 可 能 都 存在 某 种 数据 库 里 ， 或 者 至 少 是 有 个 预定 义 结 构 的 XML。 那 为 什么 不 先 询 问 数 据 所 有 者 是 否 可 以 授权 你 访问 
该 数据 库 或 文件 呢 ? 你 感 兴趣 的 数据 量 越 大 ， 和 数据 提供 方 事先 沟通 你 的 意图 就 越 有 价值 。 不 过 ， 如 果 你 只 是 想 下 载 一 些 表格 ， 为 此 打扰 网 站 
维护 者 可 能 束 多 此 一 举 了 。 


一 旦 你 已 经 断定 ， 从 网 页 直接 抓 取 数 据 是 唯一 可 行 的 方案 ， 你 就 必须 考虑 机 器 人 排除 协议 ， 如 果 有 此 协议 。 通 常 robots.txt 不 会 故意 封杀 个 
人 对 站 点 的 请 求 ， 但 会 阻止 某 个 网 页 被 搜索 引擎 或 其 他 元 搜索 应 用 进行 泰 3 引 。 如 果 你 非 要 从 一 个 在 其 robots.txt 里 载 明 了 不 允许 网 络 机 器 人 活动 
的 网 页 采集 信息 ， 你 应 该 三 思 而 后 行 。 你 是 否 计 划 以 类 似 机 器 人 的 方式 抓 取 数 据 ? 你 的 任务 是 否 有 可 能 给 该 Web 服 务 器 市 来 任何 损害 ? LAA 
议 的 情况 下 ， 要 与 网 站 管理 员 取 得 联系 ， 或 碍 看 网 站 使 用 条 丈 ， 如 果 有 使 用 条 款 。 要 确保 你 的 计划 没有 恶意， 并 适当 利用 身份 识别 的 HTTP 标 头 
字段 让 目 己 的 身份 保持 可 识别 。 


即使 你 计划 的 工作 不 是 非法 的 ， 也 没有 任何 损害 数据 提供 者 利益 的 潜在 风险 ， 但 还 是 有 一 些 有 关 抓 取 的 注意 事项 是 你 必须 认真 考虑 的 。 
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抓 取 的 注意 事项 
© 用 User-agent 和 From 标 头 
字段 让 身份 可 识别 ， 例 如 ， 
- 不 要 隐藏 在 代理 或 伪装 成 
开始 抓 取 并 考虑 右边 的 浏览 器 的 user-agent 后 面 





所 有 注意 事项 减少 流量 : 尽 可 能 少 抓 取 ， 
尽量 用 gzip, 选择 轻 量 级 格 
式 ， 在 抓 取 前 先 检 查 数据 
是 否 有 变化 ( Last-Modi- 
fied 标 头 ) 
切 勿 用 不 必要 的 请 求 对 服 
Fy He WEFT ESE 


重新 考虑 你 的 任务 。 如 果 可 
能 ， 和 数据 拥有 者 讨论 一 下 。 


如 果 你 无 论 如 何 还 是 要 开始 抓 
取 ,， 切记 右边 的 “ 抓 取 的 注意 
事项 ” 





图 9-10 网络 抓 取 的 礼仪 手册 


例如 ， 我 们 一 步 一 步 地 构建 了 一 个 小 的 抓 取 程序 ， 采 用 了 友好 网 络 抓 取 的 所 有 一 抄 子 技术 手段 。 比 如 ， 我 们 要 追踪 被 Internet Movie 
Database (IMDb) 用 户 评 为 最 流行 的 250 个 电影 。 评 级 情况 友 布 在 http://www.imdb.com/chart/top。 虽 然 在 这 个 例子 里 采用 的 技术 有 点 过 
头 了 ， 因 为 我 们 实际 上 并 不 是 在 抓 取 大 量 的 数据 ， 但 是 对 于 数据 更 加 海量 的 任务 来 说 ， 这 个 程序 其 实 是 一 样 的 。 


假如 我 们 已 经 把 图 9-10 里 的 问题 检查 清单 都 过 了 一 遍 (截止 到 2014 年 3 月 ， 还 没有 IMDb 的 API) ， 并 判断 出 要 获取 这 些 数据 除了 直接 抓 取 
内 容 没 有 其 他 办 法 。 对 IM Db 的 robots.txt 进 行 查看 可 以 友 现 ， 机 器 人 是 被 正式 许可 在 /chart 子 目录 下 进行 抓 取 的 。 


利用 RCurl 组 件 的 标准 抓 取 方 法 类 似 于 如 下 所 示 的 例子 : 


Rə Tibrary(Rourl) 
R> library (XML) 
R> url <- "http://www.imdb.com/chart/top" 
R> top <- getURL (url) 
R> parsed top <- htmlParse (top, encoding = "UTF-8") 
R> top table <- readHTMLTable (parsed top) [[1]] 
R> head(top table[1:10, 1:3]) 
Rank & Title IMDb Rating 


1 1. The Shawshank Redemption (1994) > 
2 2. The Godfather (1972) 9.2 
3 3. The Godfather: Part II (1974) 9.0 
4 4. The Dark Knight (2008) ee 
5 5. Pulp Fiction (1994) 8.9 
6 6. The Good, the Bad and the Ugly (1966) 8.9 
7 7. Schindler’s List (1993) 8.9 
8 8. 12 Angry Men (1957) 8.9 
9 9. The Lord of the Rings: The Return of the King (2003) 8.9 
10 10. Fight Club (1999) 8.8 


第 一 条 规则 是 让 自己 可 识别 。 我 们 在 第 5 章 已 经 学 习 了 如 何 做 到 这 一 点 。 当 通过 HTTP 发 送 请 求 时 ， 我 们 可 以 利用 User-agent 和 From 标 头 
字段 。 因 此 ， 我 们 要 重新 指定 该 GET 请 求 为 : 


R> getURL (url, useragent = str _c(R.version$Splatform, R.version$version. 
string, sep = ", "), httpheader = c(from = "eddie@datacollection.com") ) 


第 二 条 规则 是 减少 流量 。 为 此 ， 我 们 应 该 接受 压缩 文件 。 我 们 可 以 通过 Accept-Encoding 标 头 字 段 声明 接受 哪些 内 容 编 码 。 如 果 我 们 让 这 
个 字段 空 着 不 填 ， 服 务 器 就 会 以 它 的 优先 格式 发 送 文件 。 因 此 ， 我 们 不 必 指 定 优 先 的 压缩 方式 ， 在 手工 指定 时 它 很 可 能 是 gzip 格 式 。 在 XML 组 
件 里 使 用 的 XML 解析 器 能 够 处 理 gzip 压 缩 的 XML 文档 。 我 们 不 必 重 新 指定 解析 命令 : xmlParse () 国 数 会 先 自动 检测 压缩 格式 并 解压 该 文件 。 


如 果 我 们 要 对 同一 个 资源 进行 多 次 抓 取 ， 就 可 以 用 到 另 一 个 减少 流量 的 穷 门 。 我 们 要 做 的 是 在 访问 和 检索 该 资源 之 前 ， 先 检查 它 是 否 有 改 
变 。 这 样 做 有 好 几 种 方式 。 第 一 ， 我 们 可 以 监控 Last-Modified 这 个 响应 标 头 字段 并 发 送 一 个 有 条 件 的 GET 请 求 ， 也 就 是 说 ， 只 有 文件 在 上 次 访 
问 之 后 又 被 修改 的 情况 下 才 访 问 访 资源。 我 们 可 以 根据 该 肖 数 的 机 制 ， 通 过 发 送 一 个 lf-Modified-Since 或 If-Unmodified-Since 请 求 标 头 字 
段 ， 让 这 个 调用 变 成 有 条 件 的 。 在 本 次 IMDb 的 例子 里 ， 该 方法 的 工作 情况 如 下 。 首 先 ， 通 过 debugGatherer () 函数 定义 一 个 curl 句 柄 ， 让 我 
们 能 追踪 HTTP 通 信 。 因 为 我 们 要 在 整个 过 程 中 修改 HTTP 标 头 ， 我 们 就 把 用 来 识别 自己 的 标准 标 头 信息 保存 到 一 个 附加 的 对 象 ， 以 便 使 用 和 重 
新 定义 它 。 

R> info <- debugGatherer () 

R> httpheader <- list(from = "Eddie@r-datacollection.com", 'user- 


agent' = str_c(R.version$version.string, ", ", R.versionSplatform) ) 
R> handle <- getCurlHandle(debugfunc = infoSupdate, verbose = TRUE) 


我 们 要 定义 一 个 新 图 数 getBest () ， 它 负责 从 IMDb 页 面 提 取出 最 佳 影 


R> getBest <- function(doc) readHTMLTable(doc)[[1]][, 1:3] 


运用 该 国 数 的 结果 是 得 到 一 个 含有 250 部 最 佳 影片 的 数据 框 。 为 了 能 在 后 面 步骤 分 析 它 ， 我 们 要 把 它 保存 到 本 地 硬盘 的 一 个 叫 
bestFilms.Rdata 的 R 数 据 文 件 ， 如 果 它 还 不 存在 的 话 。 


R> url <- "http://www.imdb.com/chart/top" 
R> best doc <- getURL (url) 
R> best vec <- getBest (best doc) 


R> if (!file.exists("bestFilms.Rdata")) { 


save (best vec, file = "bestFilms.Rdata") 


| 
R> head(best vec) 
Rank & Title IMDb Rating 


1. The Shawshank Redemption (1994) 9,2 

2. The Godfather (1972) 9,2 

3. The Godfather: Part II (1974) 9,0 

4. The Dark Knight (2008) 8,9 

5. Pulp Fiction (1994) 8,9 

6. The Good, the Bad and the Ugly (1966) 8,9 


NM PWD BP 


现在 我 们 要 让 文件 随时 能 够 更 新 ， 当 且 仅 当 IMDb 网 页 自从 上 次 更 新 文件 后 有 变化 的 情况 下 进行 。 我 们 通过 使 用 HTTP 请 求 里 的 If- 


Modified-Since 标 头 字 段 来 进行 这 个 设 定 。 


R> httpheader$"If-Modified-Since" <- "Tue, 04 Mar 2014 10:00:00 GMT" 
R> best doc <- getURL(url, curl = handle, httpheader = httpheader) 


如 果 我 们 要 利用 这 个 .Rdqata 文 件 最 后 一 次 更 新 的 时 间 戳 (time stamp) ， 情 况 束 会 变 得 更 复 洒 一 些 。 为 了 这 样 做 ,我 们 必须 提取 日 期 并 把 
它 以 正确 格式 填充 到 | 和-Modified-Since 标 头 字 段 里 。 因 为 提取 该 日 期 并 将 其 转化 为 HTTP 请 求 里 需要 的 格式 是 个 有 麻烦 事 ， 我 们 一 次 性 解决 了 这 
个 问题 ， 并 整理 成 了 2 个 阔 数 : httpDate () 和 file.date () ， 参 见 图 9-11。 可 以 通过 以 下 命令 从 本 书 的 网 页 下 载 该 函数 : 


R> writeLines (str replace all (getURL("http://www.r-datacollection. 
com/materials/http/HTTPdate.r"),"\r",""),"httpdate.r") 
下 面 通过 source () 函数 Le 把 这 些 代码 调 出 到 我 们 的 会 话 里 ， 并 利用 对 file.date () 的 调用 ， 提 取出 最 佳 影片 数据 文件 的 最 后 一 次 修改 日 


期 。 
R> source ("http://www.r-datacollection.com/materials/http/HTTPdate.r") 


R> (last mod <- file.date("bestFilms.Rdata") ) 
A| "2074-03-17 15200231 CEP" 
现在 可 以 通过 利用 httpDate () ， 把 该 日 期 传递 给 If-Modified-Since 标 头 字段 。 


R> httpheader$"If-Modified-Since" <- httpDate(last mod) 
R> best doc <- getURL (url, curl = handle, httpheader = httpheader) 


通过 getCurllnfo () ， 我 们 可 以 收集 有 关 最 后 一 次 请 求 的 信息 ， 并 控制 状态 码 。 


R> getCurlInfo (handle) Sresponse.code 
[1] 200 


MWA ASST 200, ATs MNES Beau. WRIST “RAVER ASBI MEA, FATS 
状 。 


R> if (getCurlInfo(handle) $response.code == 200) { 
best list <- getBest (best doc) 
save(best list, file = "bestFilms.Rdata") 


1 | httpDate <- function(time="now", origin="1970-01-01", type="rfc1123") { 
2 if (time=="now") { 

3 tmp <- as.POSIX1t(Sys.time(), tz="GMT") 

4 }Jelse{ 

5 tmp <- as.POSIX1t(as.POSIXct (time, origin=-origin), tz="GMT") 
6 | 

7 nday <- c("Sun", "Mon" , "Tue" , 

8 "Wed", "Thu" , "Fri" , 

9 "Sat") [tmpswday+1] 

10 month <- tmpsmon+1 

11 nmonth <- c("Jan" , "Feb" , "Mar" , 

12 "Apr", "May" , "Jun" , 

13 "Jul" , "Aug", "Sep" , 

14 "Oct" ， "Nov" , "Dec") [month] 

15 mday <- formatC(tmpsmday, width=2, flag="0") 

lé hour e- formatc (tmp$hour, width=232, flag="0") 

17 min <- formatC(tmpsmin , width=2, flag="0") 

18 sec <- formatC(round(tmpssec) , width=232, flag="0") 

19 if (type=="rfc1123") { 
20 return (paste0 (nday, ", ", 
21 mday," ", nmonth, " ", tmpsyear+1900, " ™, 
22 hour, "=", min, ":", sec, " GMT") ) 
23 jelse{ 
2: stop("Not implemented") 
25 } 


26| ] 


28 | file.date <- function(filename, timezone=Sys.timezone() ) { 


2 as.POSIX1t( min(unlist( file.info(filename) [4:6] )), 
30) origin = "1970-01-01", 

31 tz = timezone) 

32) } 

34| # usage: 

35| # httpDate () 

36| # httpDate( file.date("WorstFilms.Rdata") ) 

37 | # httpDate ("2001-01-02") 

38 | # httpDate ("2001-01-02 18:00") 

39| # httpDate ("2001-01-02 18:00:01") 

40 | # httpDate (60*60*24*30.43827161*12*54460*60*24*32) 
41 | # httpDate (-10*24*60*60, crigin="2014-02-01") 


图 9-11 处理 HTTP IfModified-Since 标 头 字段 的 辅助 函数 


利用 If-Modified-Since 标 头 也 并 非 全 无 问题 。 首 先 ，Last-Modified 响 应 标 头 字 段 实 际 的 含义 并 不 清楚 。 我 们 可 能 预期 服务 器 保存 的 是 文 
件 最 后 一 次 修改 的 时 间 。 不 过 ， 如 果 文 件 包含 了 动态 内 容 ， 该 标 头 字段 也 可 能 表示 它 的 一 个 组 成 部 分 的 最 后 修改 时 间 。 实 际 上 ， 在 前 面 的 例子 
里 ，IMDb 网 站 总 是 上 友 回 一 个 当前 的 时 间 戳 ， 所 以 文件 总 是 会 被 下 载 下 来 ， 即 使 排名 情况 并 没有 改 节 。 因 此 ， 在 我 们 让 抓 取 程序 配套 使 用 Last- 
Modified 标 头 字 段 之 前 ， 首 先 必须 监测 它 的 更 新 频率 。 另 一 个 问题 是 服务 器 根本 就 不 友 回 Last-Modified， 即 使 HTTP/1.1 协 议 规 定 服务 器 必须 
提供 它 (参见 Fielding et al.1999, Chapters 14.25, 14.28, and 14.29) 。 


另 一 种 策略 是 只 检索 文件 的 部 分 内 容 。 我 们 可 以 通过 措 定 libcurl 的 range 选 项 来 这 么 做 ， 该 选项 支持 定义 一 个 字 节 学 围 。 比 如 ， 假设 知道 我 
们 需要 的 信息 总 是 保存 在 文件 的 起 始 位 置 ， 类 似 于 标题 ， 那 么 就 可 以 截取 该 文档 ， 用 range="1-100" 指 定 我 们 的 请 求 函 数 只 接收 文档 的 最 前 面 
100 个 字 节 。 GE: 这 里 是 一 个 典型 编程 初学 者 犯 的 错误 ， 如 果 只 接受 最 前 面 100 个 字 节 ，range 应 该 是 “0-99”。 天 于 该 参数 的 具体 说 明 见 相 
KX: http://curl.haxx.se/libcurl/c/CURLOPT_RANGE.html。 你 可 以 在 R 控 制 台 自己 尝试 一 下 ， 看 看 从 1 开始 会 丢掉 哪个 字符 。 比 如 ， 可 以 
用 baidu.com 的 简单 实验 结果 如 下 : 


> getURL(url = "http://www.baidu.com", .opts = curlOptions(range = "1-14")) 
L1] =IDOCIYPE Himli? 
> getURL (url = "http://www.baidu.com", .opts = curlOptions(range = "0-14")) 


[1] "<!DOCTYPE html>” 


) 
ESTAR, FART SIRS REUSE! ， 而 且 ， 我 们 把 文件 切 成 两 段 后 ， 它 就 没 法 用 XPath 访问 了 。 


在 另 一 个 场景 里 ， 我 们 可 能 需要 从 一 组 市 率 引 的 文件 中 下 载 所 定 的 文件 ， 但 只 需要 其 中 那些 我 们 迄今 为 止 还 没有 下 载 过 的 。 我 们 实现 了 一 
个 对 文件 是 否 人 在 本 地 硬盘 存在 的 检查 ， 只 有 在 本 地 找 不 到 该 文件 的 情况 下 才 局 动 下 载 。 下 面 的 通用 代码 片段 示 沁 了 这 个 方法 。 比 如 ， 我 们 已 经 
通过 filenames<-c ("page1.html", "page2.html", page3.html) 创建 了 一 个 HTMLx 文 件 名 的 向 量 ， 这 些 文 件 是 存放 在 一 个 类 似 
于 www.example.com 的 网 站 上 的 。 现 在 我 们 可 以 针对 那些 还 没有 下 载 过 的 文件 启动 下 载 过 程 : 


R> for (i in 1:length(filenames)) { 
if (!file.exists(filenames[i])) { 
download.file(str c(url, filenames[i]), destfile = filenames [1] ) 


file.exists () RENShEBMEAGE. MRE, Rill RRC. BEARERS ISSA, Bell LAMPS Tle 
较 : 一 组 是 将 要 下 载 的 ， 一 组 是 已 经 存在 本 地 文件 夹 里 的 。 就 像 这 样 : 


R> existing files <- list.files("directory of scraped files") 
R> online files <- vector of online files 
R> new.files <- setdiff(online files, existing files) 


istfiles O 函数 会 列 出 保存 在 指定 目录 下 的 文件 名 。setdiff O 函数 则 会 比较 两 个 向 量 的 内 容 并 返回 不 对 称 的 差异 ， 也 就 是 ， 属 于 第 一 个 
向 量 一 部 分 但 不 属于 第 二 个 的 内 容 。 注 意 ， 这 些 代码 小 片段 只 有 符合 如 下 条 件 的 情况 下 才能 正常 工作 : 我 们 要 下 载 的 网 页 在 URL 里 带 有 唯一 标 
识 符 “〈 例 如 ， 一 个 日 期 ) ， 并 且 当 网 页 的 集合 有 变化 时 ， 我 们 可 以 认为 其 中 页 面 的 内 容 并 没有 随 之 改变 . 


我 们 也 不 希望 用 多 次 请 求 来 干扰 服务 器 。 这 一 方面 是 因为 每 秒 友 送 很 多 请 求 会 让 小 型 服务 器 不 堪 重 负 ， 另 一 方面 是 因为 网 站 管理 员 对 拒 虫 
很 敏感 ， 如 果 我 们 的 抓 取 程序 表现 得 像 胞 虫 ， 束 有 可 能 会 遭 到 封杀 。 利 用 R 可 以 简单 直接 地 约束 我 们 的 抓 取 程序 。 我 们 只 要 每 次 暂停 一 会 儿 请 求 
的 执行 束 可 以 了 。 在 下 面 的 代码 中 ， 一 个 抓 取消 数 被 设 定 为 处 理 一 批 URL， 并 且 只 有 在 暂停 1 秒 后 才能 继续 执行 ， 这 个 时 间 | 间 隔 是 利用 
Sys.sleep () 消 数 设 定 的 。 


Rs for (i in 1:length(urls)) { 
scrape function(urls[1] ) 
Sys.sleep (1) 


其 实 也 没有 正式 的 规则 规定 ， 一 个 彬 彬 有 礼 的 抓 取 程序 访问 页 面 应 该 是 起 样 的 频率 。 如 果 robots.txt 里 的 Crawl-delay 没 有 规定 更 有 证 制 的 
请 求 行为 ， 那 么 作为 经 验 法 则 ， 我 们 每 秒 发 送 的 请 求 尽量 不 要 超过 一 次 或 两 次 。 


最 后 ， 编 写 一 个 有 节制 的 抓 取 程序 不 仪 仪 是 效率 问题 ， 也 涉及 礼节 问题 。 通 单 没有 理由 每 天 都 去 抓 取 同 一 个 页 面 ， 或 者 一 次 又 一 次 地 重复 
同样 的 任务 。 虽 然 市 宽 成 本 在 逐年 下 降 ， 但 是 服务 器 流量 对 于 网 站 维护 者 仍然 是 实际 的 成 本 。 对 于 创建 行为 尺 好 的 网 络 抓 取 程序 ， 我 们 最 后 一 
条 忠告 是 尽 可 能 让 抓 取 程序 高 效率 。 从 实践 上 说 ， 这 意味 着 当 你 在 多 种 格式 间 进 行 选择 时 ， 要 选择 轻 量 级 的 那个 。 当 你 必须 从 一 个 HTML 页 面 
抓 取 数据 时 ， 有 必要 寻找 一 个 “打印 版 ”或 “ 纯 文 字 版 ”， 它 通常 是 比 完整 设计 的 网 页 轻便 得 多 的 HTML。 这 样 既 有 助 于 你 提取 内 容 ， 也 对 提 
供 该 资源 的 服务 器 有 利 。 更 一 般 地 说 ， 不 要 “过 分 抓 取 ”网 页 。 细 心地 选择 好 你 需要 利用 的 资源 ， 其 他 的 东西 融 不 要 去 碰 了 。 此 外 ， 如 果 你 经 
常 使 用 抓 取 程 序 ， 要 定期 检测 它 的 工作 情况 。 网 页 设计 会 快速 变化 ， 让 你 的 抓 取 方 法 变 得 不 好 用 。 而 一 个 糟糕 的 抓 取 程序 还 是 会 消耗 市 完 ， 却 


SARAH AHR. |! 


最 后 骨 襄 一 句 。 我 们 认为 ， 没 有 理由 只 是 因为 从 网 络 抓 取 了 内 容 束 感到 愧 站 。 在 本 书 中 讲解 的 所 有 案例 里 ， 抓 取 都 和 盗 究 和 有 财产 或 财 卖 
内 容 拷贝 无 天 。 理 想 情 况 下 ， 对 抓 取 到 的 信息 进行 处 理会 给 它 市 来 真正 的 增值 。 


[1] http://en.wikipedia.org/wiki/EBay_v._Bidder%27s_Edge, https://www.law.upenn.edu/fac/pwagner/law619/f2001 /week11/bidders_edge.pdf 
[2] https: //www.law.upenn.edu/fac/pwagner/law619/£2001 /week11/bidders_edge.pdf 

[3] https: //www.eff.org/sites /default/ files/ap_v._meltwater_sdny_copy.pdf 

[4] 参见 Mark Ward A K HL AMR AY LH, KW http://www.bbe.co.uk/news/technology-23988890 

[5] 本 例 取 自 美 会 主页 ， 参 见 : http://beta.congress.gov/。 

[6] 其 实 这 个 函数 是 在 11.3 节 里 才 有 介绍 的 ， 它 的 作用 是 读 取 外 部 R 程 序 文件 里 的 代码 。 译 者 注 

[7] 有 不 少 网 站 都 不 支持 tange 参 数 ， 如 Yahoo.com， 或 者 黄 至 是 本 书 配套 的 网 站 f-datacollection.com。 译 者 注 

[8] 该 建议 的 很 多 方面 都 从 Hemenway and Calishain (2003) 的 超 棒 文章 “漫谈 用 Pet 进行 网 络 抓 取 ” 受 到 了 启发。 








94 ”有 价值 的 灵感 来 源 


在 开始 创建 一 个 数据 抓 取 项 目 之 前 ， 有 必要 先 研 究 一 下 其 他 人 做 过 的 事情 。 这 对 于 特定 问题 也 许 会 有 帮助 ， 但 是 互联 网 上 也 到 处 是 对 于 抓 
取 应 用 和 创意 作品 更 具 总 体 局 友 性 的 资源 ， 还 有 可 以 自由 获取 的 数据 。 在 下 面 的 内 容 里 ， 我 们 想 要 为 你 指出 我 们 帝 得 特别 有 用 或 特别 有 局 友 的 
一 些 资源 和 项 目 。 


CRAN 有 关 Web 技 术 的 任务 视图 (The CRAN Task View on web technologies， 网 址 是 http://cran.r- 
project.org/web/views/WebTechnologies.html) 对 于 通过 R 访 问 和 解析 来 自 互 联网 的 数据 提供 了 非常 有 用 的 概述 。 你 可 以 看 到 ， 并 不 是 所 有 
可 用 的 组 件 都 在 本 书 中 介绍 了 ， 一 部 分 原因 是 开源 社区 在 这 个 领域 非常 的 活跃 ， 还 有 部 分 原因 是 我 们 刻意 要 专注 于 最 有 用 的 一 些 软件 。 你 可 以 
创建 一 个 自动 化 抓 取 程序 用 来 定期 检查 该 站 点 的 更 新 ， 这 会 是 一 个 很 好 的 练习 。 


GitHub 是 一 个 为 软件 项 目 (或 者 说 ， 为 那些 上 帮 布 了 正在 进行 的 开发 工作 的 用 户 ) 提供 的 托管 服务 (https://github.com/) > BARANE 
何 编程 语言 ， 所 以 你 可 以 找到 很 多 发 布 R 代 码 的 用 户 。Hadley Wickham 和 Winston Chang 已 经 提供 了 很 便利 的 CRAN 组 件 
devtools (Wickham and Chang 2013) ， 它 让 那些 不 是 发 布 在 CRAN 上 而 是 在 GitHub 上 的 软件 通过 install github () 也 能 易于 安装 。 


rOpenSci (http://ropensci.org/) 是 一 个 极其 有 吸引 力 的 项 目 ， 它 的 目标 是 为 R 和 已 有 科学 或 相关 API 之 间 建 立方 便 的 连接 。 他 们 的 座 右 
铭 简 直 可 以 说 是 “把 所 有 科学 API 打 包 ”。 这 蕴涵 着 一 种 “元 分 享 ” 的 思想 : 该 项 目的 贡献 者 会 共享 并 维护 有 助 于 访问 开放 科学 数据 的 软件 。 正 
如 我 们 在 9.1.10 节 所 讲述 ，API 访 问 的 维护 实际 上 是 个 重要 的 话题 。 该 项 目的 网 站 提供 了 一 些 R 组 件 ， 这 些 组 件 作为 多 个 数据 仓库 、 杂 志 全 文 和 
蔡 代 指标 数据 [的 接口 。 其 中 一 些 组 件 可 以 在 CRAN 上 获取 ， 还 有 一 些 则 保存 在 GitHub 上 。 举 几 个 例子 ，rgbif 组 件 提供 了 对 全 球 生物 多 样 性 信 
息 设施 API (the Global Biodiversity Information Facility API) 的 访问 ， 里 面 涵盖 了 几 干 种 天 于 物种 和 生物 的 数据 集 (Chamberlain et 
al.2013) 。RMendeley 组 件 则 提供 对 个 人 版 Mendeley 数 据 库 的 访问 (Boettiger and Temple Lang 2012) 。 而 利用 rfishbase 组 件 ， 就 可 以 
通过 R 访 问 来 自 www.fishbase.org 的 数据 库 (Boettiger et al.2014) 。 此 外 ，rOpensci 网 站 还 对 一 些 和 它 不 直接 关联 但 也 能 访问 某 些 科学 API 
的 R 组 件 进行 了 有 益 的 总 体 介绍 ， 参 见 http://ropensci.org/relatedyindex.html。 很 值得 浏览 一 下 该 清单 ， 从 中 找到 如 Google 地 图 、 纽 约 时 
报 、NHL (北美 职业 冰球 联赛 ) 实时 比分 系统 数据 库 以 及 其 他 很 多 流行 网 站 API 的 R 包 装 程 序 。 总 而 言 乙 ，rOpensci 团 队 努 力 的 方向 是 为 未 来 科 
学 实践 的 一 个 重要 目标 ， 即 开放 数据 的 繁 采 增长 和 易于 获取 。 


如 果 没有 “统计 计算 学 的 Omega 项 目 ” (Omega Project for Statistical Computing， 网 址 是 http://www.omegahat.org/) ， 现 在 我 
们 可 以 利用 R 和 网 络 抓 取 技术 做 到 的 很 大 一 部 分 工作 很 可 能 都 无 法 进行 。 该 项 目的 核心 组 基本 上 是 由 R 的 核心 开发 团队 的 明星 成 员 组 成 
的 ，Duncan Temple Lang 是 其 中 最 勤奋 的 贡献 者 。 凭 借 着 类 似 于 RCurl 和 和 XML 组 件 的 创建 ， 该 项 目 一 举 英 定 了 R 和 互联 网 通信 的 基石 。 到 今 
天 ， 该 项 目 中 基于 R 与 Web 服 务 及 数据 库 系 统 进行 交互 的 可 用 软件 已 经 有 一 个 可 观 的 清单 ， 并 且 它 还 不 限于 R 平 台 。 虽 然 并 不 是 其 中 所 有 的 软件 
都 会 定期 更 新 或 可 以 直接 用 于 标准 的 网 络 抓 取 任务 ， 但 在 开始 为 任何 Web 服 务 编写 新 接口 之 前 ， 查 看 该 网 页 是 必 不 可 少 的 。 有 可 能 你 要 做 的 事 
情 已 经 有 人 做 好 并 发 布 在 这 个 网 站 上 了 。 其 中 的 很 多 组 件 在 Nolan 和 Temple Lang (2014) 写 的 超 棒 新 书 里 也 有 很 详细 的 讨论 ， 该 书 很 值得 一 


读 。 


[1] 这 个 替代 指标 原 词 是 altmetrics， 意 思 是 传统 科学 指标 (如 影响 因子 、 引 用 数 等 ) 的 一 些 新 型 替代 指标 ， 详 见 维基 百科 页 面 





https: //en.wikipedia.org/wiki/Altmettics o 译 者 注 


小 结 


在 本 章 ， 我 们 讲解 了 把 本 书 第 一 部 分 介绍 的 技术 HTTP、HTML、 正 则 表达 式 等 用 于 网 页 检索 数据 的 实践 。 与 其 说 网 络 抓 取 是 一 门 科学 ， 不 
如 说 是 一 种 技能 。 要 把 网 络 抓 取 实 践 通 用 化 是 很 难 的 ， 因 为 每 个 场景 都 会 不 一 样 。 在 本 章 的 第 一 部 分 ,我们 选取 了 以 自动 化 方式 从 互联 网 采集 
数据 时 经 常会 遇 到 的 某 些 场景 。 如 果 你 在 学 习 本 书 第 一 部 分 的 时 候 有 一 种 被 巨 量 的 Web 基 础 技术 所 吞没 的 感觉， 那么 你 看 本 章 就 会 惊讶 于 在 很 
多 场景 下 用 R 从 互联 网 采集 数据 会 如 此 简单 ， 这 得 益 于 强大 的 网 络 客户 端 接口 (如 RCurl) 、 字 符 串 处 理 的 便利 组 件 (如 stringr) ， 以 及 易于 实 
施 的 解析 工具 (例如 ，XML 组 件 里 提供 的 一 些 函数 ) 。 


关于 从 网 络 文档 提取 信息 ， 我 们 摘 绘 了 三 种 广义 的 策略 : 正则 表达 式 抓 取 、XPath 抓 取 、 通 过 Web API 的 接口 进行 数据 采集 。 一 旦 你 对 网 
络 抓 取 具 备 更 多 经 验 ， 你 就 可 以 自己 考虑 清楚 哪 种 策略 在 哪 种 场景 下 更 能 符合 你 的 需求 。 我 们 针对 每 种 策略 介绍 的 上 自动 化 数据 采集 忌 体 流程 可 
以 作为 一 个 指导 原则 。 不 过 ,我 们 对 于 每 种 策略 的 优势 和 劣势 的 讨论 还 有 一 个 目的 ， 那 就 是 明确 没有 哪个 网 络 抓 取 策 略 是 最 优 的 ， 而 熟悉 我 们 
讲解 的 每 种 技术 会 让 你 受益 。 


我 们 在 本 章 最 后 一 节 专 门 讨 论 了 一 个 重要 话题 ， 即 网 络 抓 取 的 展 好 实践 。 从 网 站 采集 数据 并 非 融 是 天 生 收 亚 ， 成 功 的 商业 模式 都 是 基于 大 
量 的 在 线 数据 采集 和 处 理 的 。 不 过 ， 有 一 些 某 些 正式 和 不 那么 正式 的 规则 是 我 们 可 以 并 且 必 须 亲 守 的 。 我 们 概述 了 一 套 礼 仪 ， 里 面 给 出 了 在 抓 
取 网 络 数据 时 的 一 些 行为 规 沁 。 


通过 本 章 的 系统 学 习 ， 你 已 经 掌握 了 利用 R 从 网 络 收集 数据 所 需 的 最 重要 的 工具 。 我 们 会 在 第 11 章 讨论 更 多 的 一 些 行 业 小 穷 /]。 如 果 你 处 理 
的 是 文本 数据 ， 信 息 提取 会 是 更 复杂 的 事情 。 我 们 会 在 第 10 章 提出 一 些 有 关 如 何在 R 里 处 理 文 本 以 及 估计 文本 中 的 潜在 类 型 (latent class) 等 
技术 性 的 建议 。 


延伸 阅读 


在 绪 的 很 多 有 天 用 R 进 行 网 络 抓 取 的 教程 和 指南 其 实 是 针对 具体 案例 的 ， 它 们 对 于 决定 使 用 哪 项 技术 、 如 何 做 到 行为 得 体 等 并 没有 大大 的 帮 
助 。 对 于 用 R 的 工具 处 理 网 络 资源 的 基本 问题 ， 最 近 由 Nolan 和 Temple Lang (2014) 出 版 的 新 书 提供 了 很 多 详细 内 容 ， 尤 其 是 关于 使 用 RCurl 
及 其 他 没有 在 CRAN 友 布 却 在 网 络 抓 取 中 承担 了 特定 而 重要 任务 的 组 件 。 他 们 还 提供 了 关于 REST、SOAP 和 XML-RPC 更 广阔 的 视角 。 如 果 你 想 
要 对 基于 REST 技 术 的 Web 服 务 有 更 多 理论 方面 的 了 解 ， 可 以 阅读 Richardson et al. (2013) 的 文献 。Cerami (2002) 的 文章 也 提供 了 对 Web 
服务 更 具 总 体 性 的 摘 述 。 


在 编写 本 书 期 间 ， 我 们 友 现 了 一 些 有 关 实 用 网 络 抓 取 的 书 ， 它 们 很 有 启发 性 、 很 有 意思 、 或 者 就 是 读 着 很 好 玩 ， 我 们 不 敢 藏 私 ， 晒 出 来 给 
你 们 看 看 。Schrenk (2012) 写 的 《网 络 机 器 人 、 网 络 蛟 蛛 ， 以 及 屏幕 抓 取 程序 》 (Webbots, Spiders, and Screen Scrapers) 是 一 本 介绍 
利用 PHP 和 Curl 编 写 抓 取 程序 和 网 络 机 器 人 的 很 好 玩 的 书 。 该 书 的 重点 在 后 者 (网络 机 器 人 ) ， 所 以 如 果 你 对 网 络 机 器 人 和 网 络 师 蛛 感 兴趣 ， 
这 本 书 会 是 个 好 的 起 点 。Hemenway 和 Calishain (2003) 写 的 《 蜂 蛛 程序 破解 》 (Spidering Hacks) 是 一 本 全 面 收集 了 各 种 抓 取 任务 的 应 用 
及 案例 研究 的 书 。 它 们 的 主要 抓 取 工 具 是 Perl， 但 是 其 中 介绍 的 破解 方法 也 可 以 为 基于 R 的 抓 取 程 序 提供 很 好 的 启 友 。 最 后 ，Adler (2006) 5 
的 《棒球 破解 》 (Baseball Hacks) 实际 上 是 关于 网 络 抓 取 和 数据 科学 的 一 个 大 型 案例 研究 ， 主 要 基于 Per| (对 应 抓 取 部 分 ) FOR (对 应 数据 分 
析 ) 。 如 果 你 觉得 里 边 棒 球 的 场景 很 好 玩 ， 那 么 Adler 的 这 本 动手 实践 书 就 是 你 学 习 数 据 科 学 的 好 伙伴 。 


Ad) 
f 


1. 在 网 上 创建 一 个 行为 展 好 的 抓 取 程 序 所 需 的 重要 工具 和 策略 有 哪些 ? 


2. 对 于 静态 HTML 页 面 上 的 HTML 列 表 ， 好 的 提取 策略 是 什么 ”解释 你 选择 的 贫 略 。 


3. 假 如 你 要 每 周 采 集 一 次 有 天地 震 友 生 情 况 的 数据 。 上 自己 了 解 一 下 可 行 的 在 线 数 据 源 ， 并 制定 一 个 数据 采集 策略 。 绽 合 考虑 : (1) 适当 的 
抓 取 策略 ，(2) 一 个 信息 提取 的 策略 (如 需要 ) ， (3) 在 互联 网 上 的 数据 采集 友好 行为 。 


4. 重 新 考虑 9.1.1 书 的 CSV 文 件 下 载 浮 数 。 重 新 编写 用 于 2010 年 州长 选举 初 选 数据 文件 的 下 载 程序 。 


5. 从 维基 百科 抓 取 数 据 ，|: 位 于 http://en.wikipedia.org/wiki/List_of_cognitive_biases 的 维基 百科 文章 提供 了 有 关 各 种 类 型 的 认 知 偏见 
的 几 个 列表 。 提 取保 存在 表格 中 的 有 关 社 会 偏见 的 信息 。 该 表格 的 每 个 条 目 指 向 另 一 个 更 详细 的 维基 百科 文章 。 从 这 些 文章 的 每 一 个 中 提取 人参 
考 文 献 的 清单 并 把 它们 保存 在 一 个 适当 的 R 对 象 里 。 


6. 从 维基 百科 抓 取 数 据 ，1|: Zhttp://en.wikipedia.org/wiki/List_of MPs elected in the United Kingdom general election，1992 并 
提取 包含 了 在 1992 年 英国 大 选 当选 的 下 院 议员 (Members of Parliament, MP) 的 表格 。 哪 个 党 派 的 议员 里 的 锅 士 ( 融 是 名 字 前 面 审 有 Sir 
AY) 人 数 最 多 ? 


7. 从 维基 百科 抓 取 数据 ， 吊 : 查看 http://en.wikipedia.org/wiki/List of national capitals of countries in Europe by area 并 提取 出 每 
个 欧洲 国家 首都 的 地 理 坐 标 。 第 二 步 ， 在 一 个 地 图 上 对 这 些 首 都 进行 视觉 化 显示 。 来 自 第 1 章 例 子 的 代码 也 许 会 有 帮助 。 


8 .编写 你 自己 的 robots.txt 文 件 ， 提 供 如 下 规则 : (a) 不 允许 Google 机 器 人 抓 取 你 的 网 站 ， (b) 不 允许 Google 机 器 人 抓 取 你 的 /private 
文件 夹 。 


9. 重 新 考虑 图 9-9 基 于 R 的 robots.txt 解 析 器 。 把 它 作为 起 点 来 构建 一 个 程序 ， 它 让 你 的 任何 抓 取 程序 遵守 任何 站 点 上 robots.txt 里 面 的 规 
则 。 该 函数 必须 完成 以 下 任务 : (a) 识别 任何 给 点 主机 上 的 robots.txt; 如 果 有 ， (b) 检查 是 否 有 特定 的 User-Agent 被 列 入 规则 ; (c) 检查 
要 抓 取 的 路 径 是否 人 允许 抓 取 ; (d) 遵循 (a). (b) 和 (c) 的 检查 结果 。 想 一 想 ， 如 果 找 不 到 robots.txt， 是 否 允 许 抓 取 。 


10.Google Search 让 用 户 可 以 通过 一 组 参数 调整 他 们 的 请 求 。 利 用 这 些 参 数 编 写 程 序 ， 定 期 通知 你 关于 对 你 的 名 字 进 行 搜 索 的 最 新 结果 。 
11. 重 新 考虑 9.1.10 节 里 的 Yahoo 天 气 订阅 源 : 
(a) 找 出 在 图 9-5 里 显示 的 包装 国 数 ， 并 人 在 R 里 重建 它 。 


(b) 该 API 返 回 一 个 迄今 为 止 还 没有 评估 过 的 天 气 情况 编码 阅读 该 API 的 文档 ， 弄 清楚 这 套 编码 代表 的 含义 ， 并 在 (a) 步骤 重建 的 包装 函 
数 的 反馈 信息 里 实现 该 结果 。 


12. 位 于 http://api.citybik.es/ 的 CityBikes API 提 供 了 对 一 个 全 球 自行 车 共享 网 络 的 自由 访问 。 选 择 一 个 你 选 定 城市 的 自行 车 共享 服务 ， 并 
为 它 构建 一 个 R 接 口 。 该 接口 应 该 让 用 户 能 获取 有 关 管 理 站 (station) 清单 和 每 个 管理 站 可 用 自行 车 数量 的 信息 。 该 AP| 更 高 级 的 扩展 是 实现 一 
个 特性 ， 让 函数 自动 返回 离 给 定 地 理 坐 标 最 近 的 那个 管理 站 。 


13. 纽 约 时 报 在 http://developer.nytimes.com/ 提 供 了 一 套 APl。 为 了 使 用 它们 ， 你 必须 注册 得 到 一 个 API| 密 钥 。 用 R 构 建 一 个 针对 它们 畅销 
榜 (best-sellers) 搜索 API 的 接口 ， 它 可 以 检索 当前 的 畅销 榜 清 单 并 把 获取 的 JSON 数 据 转 换 为 一 个 R 数 据 框 。 


14. 让 我 们 再 来 看 一 下 联邦 政治 献金 数据 库 。 

(a) 如 果 当 前 窗口 没有 从 弹出 窗口 改 回 主 窗口 ， 会 友 生 什 么 事 ? 原来 的 代码 还 管用 吗 ? 

(b) 在 上 面相 关 代码 的 基础 上 编写 一 个 脚本 ， 下 载 从 2007 年 到 2011 年 间 共 和 党 候选 人 获得 的 所 有 政治 献金 。 

(c) 下 载 从 2011 年 3 月 的 所 有 政治 献金 记录 ， 但 让 数据 以 一 种 绘图 的 格式 返 回 。 志 降 从 绘图 中 提取 数量 和 羌 派 信息 。 
15. 把 Rwebdriver 组 件 运 用 到 本 书 介绍 的 其 他 例子 文件 : 

(a) fortunes2.html 

(b) fortunes3.html 


(c) rQuotes.php 


(d) JavaScript.html 


第 10 章 ”统计 性 文本 处 理 


任何 想 利用 统计 性 分 析 方 法 的 量化 研究 项 目 都 需要 采集 结构 化 的 信息 。 正 如 迄今 为 止 我 们 在 无 数 个 例子 里 所 演示 过 的 ， 对 于 那些 采集 之 后 
马上 残 能 用 于 分 析 的 结构 化 数据 ， 互 联网 是 一 个 宝贵 的 来 源 。 不 舞 的 是 ， 从 数量 上 来 说 ， 这 种 结构 化 数据 远 远 少 于 非 机 构 化 的 内 容 。 从 主导 地 
位 角度 说 ， 互 联网 是 基本 未 分 类 文本 的 海量 集合 。 


因此 ， 对 互联 网 广泛 使 用 的 演进 也 残 和 对 目 然 语言 处 理 (natural language processing， 即 对 人 类 语言 的 目 动 化 处 理 ) 的 兴趣 是 同步 友 展 
的 。 这 种 情况 绝 非 巧合 。 在 此 之 前 ， 从 来 没有 如 此 海量 的 机 器 可 读 文本 可 供 获 取 。 为 了 访问 这 类 数据 ， 无 数 扩 术 居 创 造 出 来 ， 以 便 给 非 结构 化 
文本 分 配 系统 性 的 含义 。 本 章 就 是 要 详细 讲解 几 种 利用 未 分 类 数据 的 可 用 技术 。 


作为 第 一 步 ， 在 10.1 节 会 演示 一 个 小 的 实际 例子 ， 整 个 第 10 章 通 篇 都 会 用 到 它 。 随 后 ，10.2 节 会 讲解 如 何在 R 里 进行 大 规模 的 文本 操作 。 文 
本 数据 会 很 快 变 成 计算 资源 的 沉重 负担 。 虽 然 这 对 于 处 理 文本 数据 来 说 是 个 更 具有 一 般 性 的 问题 ， 但 它 在 R 里 尤为 突出 ， 因 为 R 并 不 是 设计 用 来 
进行 大 规模 文本 分 析 的 。 我 们 会 介绍 tm 组 件 ， 它 支持 对 文本 进行 组 织 和 预 处 理 ， 还 提供 了 分 析 组 件 所 需 的 基础 架构 ， 在 本 章 的 剩余 部 分 都 会 用 
到 (Feinerer 2008; Feinerer et al.2008) 。 


襄 到 用 于 理解 非 结构 化 文本 数据 的 相关 技术 ， 我 们 会 先 在 10.3 节 讲解 有 监督 的 万 ;去 (supervised method) 。 这 类 宽泛 的 技术 支持 的 是 根 
据 对 于 预先 分 类 文本 的 相似 度 对 文本 进行 分 类 。 入 单 地 说 ， 有 监督 的 方法 让 用 户 能 根据 文本 与 手工 编码 训练 集 的 相似 程度 对 它 进行 标记 。 这 个 
领域 的 典型 例子 是 把 文本 组 织 到 各 个 主题 类 别 下 。 比 如 ， 有 1000 个 市 有 不 同 内 容 的 文本 。 再 如 ， 有 一 半 的 文本 已 经 分 配 了 一 个 有 关 它 们 主题 重 
点 的 标签 。 利 用 有 监督 的 方法 ， 我 们 可 以 对 另 一 半 没有 标记 的 内 容 进行 评判 。 [1 在 R 里 已 经 有 多 个 有 监督 的 方法 可 用 。 本 章 会 介绍 RTextTools 组 
件 ， 它 对 很 多 可 用 的 组 件 提供 了 一 个 包装 器 。 这 样 融 能 做 到 从 单个 国 数 调用 里 方便 地 访问 多 个 分 类 器 (Jurka et al.2013) 。 


第 二 个 文本 分 类 的 万 法 会 在 10.4 节 介绍 ， 即 无 监督 的 分 类 器 (unsupervised classifier) 。 与 依赖 于 分 类 器 和 未 标记 文本 之 间 相似 性 的 有 监 
督学 习 算法 相 比 ， 无 监督 分 类 器 根据 文本 在 不 同 分 类 的 成 员 来 评判 其 分 类 。 这 类 技术 的 主要 优点 是 能 避免 对 训练 数据 进行 烦琐 的 手工 编码 。 而 
为 了 这 个 优点 付出 的 代价 是 必须 对 评判 类 别 的 内 容 进行 后 验 ( 即 从 结果 来 推断 原因 ) 的 解释 。 


作为 提醒 ， 我 们 想 要 指出 ， 本 章 只 能 作为 相关 主题 的 粗略 介绍 。 我 们 要 探讨 某 些 最 重要 的 主题 以 及 在 R 中 可 用 的 组 件 。 不 过 需要 强调 的 是 ， 
在 很 多 情况 下 ， 我 们 无 法 完整 分 析 所 接触 到 的 相关 主题 的 细 万 。 你 必须 了 解 ， 如 果 你 对 这 尝 类 型 的 模型 很 天 注 ， 那 么 还 会 有 多 得 多 的 模型 比 本 
章 介 绍 的 更 符合 你 的 需求 。 我 们 会 在 本 章 10.4 节 提供 对 于 后 续 学 习 的 一 些 指导 。 


[1] 从 技术 角度 说 ， 我 们 并 不 局 限于 有 关 文 本 的 总 体 主题 性 内 容 的 语句 。 我 们 可 以 把 同样 的 技术 用 在 评判 具体 文本 的 内 容 (如 句子) 层面 ， 只 
我 们 能 够 提供 茶 些 预先 分 类 的 训练 数据 就 行 了 。 本 章 会 专注 于 主题 分 类 这 样 一 个 统计 性 文本 分 析 中 最 常见 的 任务 。 这 里 还 要 说 明 一 下 ， 机 器 学 


习 算 法 完全 不 只 局 限于 文本 分 析 ， 它 还 被 用 在 类 似 于 生物 信息 学 或 语音 以 及 更 通用 的 模式 识别 等 多 种 多 样 的 研究 领域 。 


10.1 实例 : 对 天 国政 府 的 新 闻 公告 进行 分 类 


在 转 到 统计 性 文本 处 理 之 前 ， 让 我 们 采集 一 些 文 本 数据 的 样本 ， 用 作 贯 穿 本 章 的 实际 例子 。 对 于 这 个 实际 例子 ， 我 们 需要 让 所 有 数据 都 市 
上 标签 ， 这 样 我 们 融会 有 一 个 分 类 器 准确 度 的 标杆 。 我 们 把 来 自贡 国政 府 的 新 闻 公 告 选 定 为 我 们 的 测试 案例 。 数 据 可 以 
在 https://www.gov.uk/governmentannouncements 访 问 到 。 在 浏览 器 里 打开 该 网 站 ， 你 在 屏幕 的 元 侧 可 以 看 到 几 个 选择 项 。 我 们 要 把 分 
析 范 围 限定 为 2010 年 7 月 之 前 的 关于 所 有 主题 、 来 自 所 有 部 门 、 在 所 有 位 置 的 新 闻 公 告 。 在 本 书 编写 的 时 间 点 ， 这 样 的 限定 条 件 产生 了 747 个 符 
合 请 求 的 结果 。 结 果 页 面 会 显示 新 闻 公 告 的 标题 、 发 布 日 期 、 代 表 上 友 布 单位 的 简称 以 及 上 发 布 的 类 型 。 为 了 在 后 续 章 节 进 行 统计 性 分 析 ， 我 们 会 
把 上 友 布 单位 作为 新 闻 公 告 内 容 的 一 个 标记 。 


注意 在 选择 时 ， 页 面 的 URL 是 怎么 变化 的 。 


https: //www.gov.uk/government /announcements?keywords=&announcem 
ent type option=press-releases&topics [] =all&departments [] =all& 
world locations []=all&from date=&to date=01%2F07%2F2010 


可 以 清楚 地 看 到 ， 我 们 的 选择 是 如 何 整合 到 URL 里 的 。 由 于 数据 并 没有 大 到 人 在 本 地 无 法 保存 的 程度 ， 根 据 网 络 抓 取 展 好 实践 的 规则 ， 在 后 
续 步 又 把 文本 数据 采集 到 tm 语料库 (corpus) 里 之 前 ,我 们 会 首先 把 所 有 747 个 结果 下 载 到 硬盘 上 。 查 看 该 页 面 的 源 代码 。 你 会 友 现 第 一 批 结 
果 位 于 页 面 的 底 端 。 不 过 ， 并 不 是 所 有 747 个 结果 都 包含 在 源 代码 里 。 为 了 及 集 它们 ， 我们 必须 利用 新 闻 公 告 底部 包含 的 链接 。 它 的 内 容 是 


<a href="/government/announcements?announcement type option=press- 
releases&amp;departments%5B%5D=all&amp;from date=&amp; keywords=é&amp ; 
page=2é&amp;to date=01%2F07%2F2010&amp; topicst5B%5D=allé&amp; world _ 
locations%5B%5D=all">Next page <span>2 of 19</span></a> 


网 


为 了 组 装 指向 所 有 新 闻 公 告 的 链接 ， 我 们 需要 采集 一 个 页 面 的 发 布 稿 ， 选 择 下 一 页 的 链接 ， 并 重复 这 个 过 程 直到 得 到 所 有 相关 的 链接 。 
个 工作 可 以 利用 下 面 的 简短 代码 小 片段 来 完成 。 首 先 ， 我 们 要 加 载 必要 的 抓 取 组 件 。 
R> library (RCurl1) 


R> library (XML) 
Rs library (stringr) 


我 们 继续 进行 所 有 结果 的 下 载 。 注 意 ， 因 为 内 容 是 保存 在 一 个 HTTPS 服 务 器 上 的 ， 我 们 要 指定 CA 签名 的 位 置 (细节 请 参阅 9.1.7 节 ) 。 


R> all links <- character () 
R> new results <- 'government/announcements?keywords=&announcement _ 
type option=press-releasesé&topics [] =all&departments [] =all&world _ 


locations []=all&from date=&to date=01%2F07%2F2010' 


R> Signatures = system.file("CurlSSL", cainfo = "cacert.pem", 
package = "RCurl") 

R> while(length(new results) > 0) { 

R> new results <- str_c("https://www.gov.uk/", new results) 
R> results <- getURL(new results, cainfo = signatures) 

R> results tree <- htmlParse (results) 

R> all links <- c(all_ links, xpathSApply(results tree, 

R> "//1i[@id]//a", 

R> xmlGetAttr, 

R> "href") ) 

R> new results <- xpathSApply (results tree, 

R> "//nav [(@id='show-more-documents' ] 
R> //1i[@class='next']//a", 

R> xmlGetAttr, 

R> "href") 

R> } 


我 们 得 到 了 一 个 长 度 为 747 的 向 量 ， 但 是 自从 本 书 出 版 之 后 可 能 会 有 一 些 变 化 。 每 个 条 目 包 含 了 一 个 新 闻 公 告 的 链接 。 为 了 确定 你 的 结果 和 
我 们 的 一 样 ， 检 查 你 的 向 量 中 的 第 一 个 条 目 。 它 看 起 来 应 该 是 这 样 的 : 


R> all links[1] 

[1] "/government/news/bianca-jagger-how-to-move-beyond-oil" 
R> length (all links) 

[1] 747 


要 下 载 所 有 的 新 闻 公 告 ， 我 们 可 以 对 结果 回 量 进行 运 代 。 


R> for(i in 1:length(all links) ) { 


R> url <- str _c("https://www.gov.uk", all links [i] ) 
R> tmp <- getURL(url, cainfo = signatures) 

R> write(tmp, str _c("Press Releases/", i, ".html1") ) 
R> } 


如 果 所 有 代码 都 正确 执行 了 ， 你 应 该 能 发 现 工 作 目录 下 出 现 了 Press_Releases 文 件 夹 ， 其 中 含有 以 HTML 文 件 格式 存放 的 所 有 新 闻 公 告 。 


R> length(list.files("Press Releases") ) 


[1] 747 
R> list.files("Press Releases") [1:3] 
GU ~L Dem" "10.html" "100.html" 


10.2 处理 文本 数据 


统计 性 文本 分 析 的 广泛 应 用 是 个 比较 新 的 现象 。 它 和 文本 普遍 以 数字 格式 保存 的 情况 相 一 至。 这 些 海量 的 机 器 可 读 文 本 带 来 了 对 自动 化 的 
内 容 处 理 方 法 的 需求 。 一 批 从 传统 意义 上 进行 统计 性 文本 分 析 的 技术 已 经 在 R 里 实现 了 。 同 时 ， 也 要 实施 相应 的 基础 架构 以 处 理 大 量 的 数字 文本 
集 。 当 前 在 R 里 的 统计 性 文本 分 析 标 准 工具 束 是 tm 组 件 。 它 为 官 理 文本 集合 以 及 在 统计 性 文本 分 析 之 前 进行 最 常见 的 数据 预 处 理 操 作 提 供 了 工 
A, 


10.2.1 大 规模 文本 操作 : tm 组 件 


让 我 们 把 在 10.1 节 采集 的 所 有 新 闻 公 告 加 载 到 R 里 ， 并 把 它们 保存 到 一 个 tm 语料库 (corpus) 里 。['] 通 常 ， 通 过 对 我 们 保存 新 闻 公告 的 整 
个 目录 调用 相关 函数 ， 就 可 以 完成 这 个 任务 。 不 过 ， 在 这 个 案例 中 ， 新 闻 公告 还 是 HTML 格 式 。 因 此 ， 在 把 它们 放 进 语料库 之 前 ， 我 们 需要 去 
掉 所 有 的 标签 和 与 新 闻 公告 无 关 的 文本 。 


让 我 们 把 第 一 篇 新 闻 公告 作为 一 个 例子 。 在 你 选择 的 浏览 器 里 打开 该 新 闻 公 告 。 该 新 闻 公 告 的 开头 是 一 句 话 “Bianca Jagger, Chair of 
the Bianca Jagger Human Rights Foundation and a Council of Europe Goodwill Ambassador, has called fora “Copernican 
revolution” in moving beyond carbon to a decentralized, sustainable energy system” 。 文 档 里 还 有 其 他 布局 信息 。 在 一 个 真正 的 研究 
项 目 里 ， 大 家 会 需要 考虑 去 除 多 余 的 噪声 。 除 了 新 闻 公 告 的 文本 ， 我 们 上 发现 在 页 面 顶部 还 有 发 布 单位 和 发 布 日 期 。 我 们 要 提取 前 面 两 份 信 息 ， 
并 把 它们 作为 元 信息 (meta information， 即 描述 信息 的 信息 ) 和 新 闻 公 告 保 仓 在 一 起 。 计 我们 来 分 析 一 下 新 闻 公 告 的 源 代码 。 我 们 发 现 该 妆 
闻 公 告 保 仔 在 <div class="block-4"> 标 签 之 后 。 因 此 ， 我 们 束 可 以 通过 如 下 调用 获取 该 新 闻 公 告 对 象 ( 即 release) : 


R> tmp <- readLines("Press Releases/1.html") 

R> tmp <- str c(tmp, collapse = "") 

R> tmp <- htmlParse (tmp) 

R> release <- xpathSApply(tmp, "//div[@class='block-4']", xmlValue) ? 


昌 在 本 书 官网 上 的 代码 居然 也 会 有 错 。 对 应 本 章 代码 的 页 面 http://www.r-datacollection.com/materials/ch-10-textmining/ch-10- 
textmining.r 里 ， 上 面 最 后 一 行 代码 是 release<-xpathSApplytmp,"//div[@class='block-4",xmlValue)。 执 行 它 出 现 了 非法 XPath 表达 式 错 
误 。 看 出 原因 了 吗 ? block-4 后 面 遗 漏 了 一 个 “]”。 在 此 提醒 读者 ， 用 作者 提供 的 代码 有 时 也 需要 目 己 会 调试 。 一 一 译 者 注 


提取 出 的 新 闻 公告 的 格式 和 原文 是 不 对 等 的 ， 这 是 因为 我 们 忽略 了 所 有 的 标签 。 不 过 ， 因 为 我 们 之 后 还 会 去 掉 句 子 的 顺序 ， 这 个 问题 其 实 
也 无 所 谓 。 同 样 ， 虽 然 我 们 可 能 还 想 去 掉 像 (opens in new window) 这 样 的 一 些 文本 所， 但 这 不 应 该 影响 我 们 的 评判 程序 。D] 在 对 整个 结果 


的 语料库 进行 迭代 之 前 ， 我 们 要 编写 两 个 查询 来 提取 元 信息 。 关 于 发 布 单位 的 信息 存放 在 <span class="organisation lead" 下 ， 而 发 布 日 期 的 
言 息 存放 在 <dd class="change-notes"> F. 


R> organisation <- xpathSApply(tmp, "//span[@class='organisation 
lead']", xmlValue) 

R> organisation 

[1] "Foreign & Commonwealth Office" 

R> publication <- xpathSApply(tmp, "//dd[@class='change-notes']", 
xmlValue) 

R> publication 

[1] "Published 1 July 2010" 


既然 已 经 设置 好 所 有 必要 的 元 素 ， 就 可 以 创建 一 个 循环 ， 对 所 有 新 闻 公告 进行 操作 并 把 结果 信息 保存 到 一 个 语料库 里 。 在 tm 组 件 中 ， 这 样 
的 一 个 语料库 是 文本 操作 的 核心 元 素 。 它 是 通过 对 我 们 刚刚 配置 好 的 第 一 个 新 闻 公告 调用 Corpus () 函数 来 创建 的 。 文 本 新 闻 公 告 ( 即 release 
对 象 ) 是 在 一 个 VectorSource () 函数 调用 里 进行 包装 的 。 这 个 步骤 指定 该 语料库 是 从 保存 在 一 个 字符 向 量 中 的 文本 里 创建 出 来 的 。 负 


R> library (tm) 
R> release corpus <- Corpus (VectorSource (release) ) 


通过 指定 对 象 名 (Blrelease corpus) 并 加 入 我 们 感 兴趣 元 素 的 下 标 ， 并 用 一 对 方 括号 包 计 该 下 标 ， 该 语料库 就 可 以 像 任何 普通 列表 一 样 
访问 了 。 到 现在 ,我 们 在 语料库 里 只 保存 了 一 个 元 素 ， 可 以 通过 release corpus[[1]] 来 调用 它 。 为 了 把 2 个 元 信息 ( 即 发 布 单 位 和 发 布 时 间 ) 加 
入 文本 里 ， 我 们 使 用 meta () 函数 。 第 一 个 变量 会 指定 我 们 要 分 配 元 信息 的 文档 ， 第 二 个 变量 指定 元 信息 的 标签 名 ， 在 我 们 的 例子 里 ， 选 择 的 
是 organisation 和 publication。 注 意 ， 我 们 选择 第 一 个 单位 作为 友 布 单位 这 个 元 信息 的 内 容 。 多 个 新 闻 公 告 都 关联 了 多 个 机 构 。 为 方便 起 见 ， 
我 们 只 选择 第 一 个 。 同 样 ， 这 种 做 法 会 在 我 们 的 数据 里 产生 一 点 误差 ,但 这 点 误差 应 该 不 会 让 分 类 器 产生 太 严 重 的 问题 。 


R> meta (release corpus[[1]], "organisation") <- Organlsat1Ion [1 
R> meta(release corpus[[1]], "publication") <- publication 
R> meta (release corpus[[1]]) 
Available meta data pairs are: 
Author : 
DateTimeStamp: 2014-03-26 00:21:46 
Description 
Heading 
ID é A 
Language : en 
Origin : 
User-defined local meta data pairs are: 
Sorganisation 
[1] "Foreign & Commonwealth Office" 


Spublication 
[1] "Published 1 July 2010" 


任何 文档 的 元 信息 都 可 以 利用 同一 个 函数 meta () 进行 访问 。 个 别 元 信息 标签 是 有 预定 义 的 ， 如 Author 和 Language。 某 些 元 信息 在 创建 
数据 记录 的 同时 自动 填充 。 在 元 信息 的 底部 可 以 看 到 我 们 创建 的 两 个 元 素 ， 即 发 布 日 期 和 发 布 该 新 闻 公告 的 单位 。 在 下 一 步 ， 我 们 对 所 有 下 载 
的 文档 执行 前 面 所 介绍 的 操作 。 我 们 要 采集 新 闻 公告 的 文本 以 及 两 条 元 信息 ， 并 利用 串 接 操作 (c () ) 把 它们 加 到 我 们 的 语料库 里 。 这 种 自动 
化 文档 导入 程序 的 一 个 潜在 问题 是 XPath 查询 对 于 具有 不 同 布局 的 新 闻 公 告 可 能 会 失效 。 通 常 ， 这 种 情况 不 应 该 出 现 。 不 管 怎样 ， 如 果真 的 出 
现 了 这 种 情况 ， 我 们 的 临时 语料库 对 象 tmp_corpus 代 码 就 不 会 被 创建 出 来 ， 循 环 也 会 出 错 。 因 此 ， 我 们 指定 了 一 个 执行 语料库 创建 的 条 件 是 
release 对 象 已 经 存在 ， 也 就 是 说 ， 它 的 长 度 大 于 0。 由 | 


R> n <- 1 
R> for(i in 2:length(list.files("Press Releases/"))){ 


R> tmp <- readLines (str c("Press Releases/", i, ".html")) 

R> tmp <- str c(tmp, collapse = "") 

R> tmp <- htmlParse (tmp) 

R> release <- xpathSApply (tmp, 

R> "//div[@class='block-4']", 

R> xmlValue) 

R> organisation <- xpathSApply (tmp, 

R> "//span[@class='organisation lead']", 

R> xml1Value) 

R> publication <- xpathSApply (tmp, 

R> "//dad[@class='change-notes']", 

R> xmlValue) 

R> if (length(release)!=0) { 

R> n <- n + 1 

R> tmp corpus <- Corpus (VectorSource (release) ) 

R> release corpus <- c(release corpus, tmp corpus) 

R> meta (release corpus[[n]], "organisation") <- 
organisation [1] 

R> meta(release corpus[[n]], "publication") <- publication 

R> } 

R> } 


查看 完整 的 语料库 可 以 友 现 ， 除 了 一 个 文档 ， 其 他 所 有 文档 都 已 经 加 入 语料库 对 象 里 了 。 


R> release corpus 
A corpus with 746 text documents 


回顾 一 下 ， 元 信息 和 文档 是 有 内 在 关联 的 。 在 很 多 情况 下 ， 我 们 对 元 数据 的 表格 形式 感 兴趣 ， 这 是 为 了 能 进一步 分 析 。 这 样 的 表格 可 以 通 
过 prescindMeta () 尔 数 进行 采集 。 该 函数 能 从 每 个 文档 中 选取 元 信息 的 片段 ， 并 把 它们 放 进 一 个 共同 的 data.frame 对 象 中 。 


R> meta data <- prescindMeta (release corpus, c("organisation", 
"publication") ) 
R> head(meta_ data) 

MetaID organisation publication 


1 0 Foreign .... Publishe.... 
2 0 Ministry.... Publishe.... 
3 0 Ministry.... Publishe.... 
4 0 Departme.... Publishe.... 
5 0 Departme.... Publishe.... 
6 0 Departme.... Publishe.... 


让 我 们 化 点 时 间 对 元 数据 进行 得 阅 。 作 为 一 个 简单 的 汇总 统计 ， 我 们 对 不 同上 友 布 单位 进行 了 计数 。 我 们 上 友 现 各 个 政府 部 门 的 新 闻 友 布 行为 
是 相当 多 样 化 的 。 假 定 英 国政 府 的 网 站 确实 收集 了 来 和 目 所 有 政府 部 门 的 所 有 新 闻 公告 ， 我 们 从 中 友 现 ， 昌 然 有 2 个 单位 友 布 了 超过 100 个 公告 ， 
但 是 其 他 有 一 泽 单位 色 布 的 数量 却 少 于 12 个 。 


R> table(as.character(meta data[, "organisation"] ) ) 


Cabinet Office 


ST 

Department for Business, Innovation & Skills 

65 

Department for Communities and Local Government 
22 

Department for Culture, Media & Sport 

T2 

Department for Education 

5 

Department for Environment, Food & Rural Affairs 
a5 

Department for Transport 

了 3 

Department for Work & Pensions 

17 

Department of Energy & Climate Change 

20 


Deputy Prime Minister's Office 


3 

Driver and Vehicle Licensing Agency 
= 

Foreign & Commonwealth Office 

204 

HM Treasury 

14 

Home Office 

8 

Ministry of Defence 

LFF 

Prime Minister's Office, 10 Downing Street 
62 

Scotland Office 

16 

Vehicle and Operator Services Agency 
时 

Wales Office 

34 


正如 在 后 面 的 章节 里 会 更 详细 地 讲解 的 那样 ， 对 于 每 个 希望 分 类 器 处 理 的 类 别 ， 我 们 都 需要 它 有 一 定 程度 的 覆盖 度 。 因 此 ， 我 们 要 排除 那 
些 发 布 数量 不 多 于 20 个 的 单位 所 发 布 的 所 有 新 闻 公 告 。 到 2010 年 7 月 为 止 的 阶段 里 ， 有 8 个 单位 发 布 了 超过 20 个 新 闻 公 告 。 我 们 选择 把 它们 保留 
在 语料库 中 。 除 了 那些 数据 量 少 的 分 类 ， 我 们 还 排除 了 内 阁 办 公 室 和 首相 办 公 室 (the cabinet office 和 the prime minister’ s office) 。 这 两 
个 单位 可 能 更 难于 归 类 ， 因 为 它们 并 不 崇 密 关联 到 某 个 特定 的 政策 领域 。 我 们 利用 sFilter () 函数 对 文档 进行 排除 操作 。 该 函数 把 要 操作 的 语 
料 库 作为 第 一 个 参数 ， 后 面 是 一 个 或 多 个 以 "tag=='value"" 形 式 存 在 的 标签 一 一 值 配对 。 回 忆 一 下 ， 管 道 操 作 符 (|) 是 等 同 于 OR 的 。 


R> release corpus <- release corpus[sFilter(release corpus, " 


organisation == 'Department for Business, Innovation & Skills' | 
organisation == 'Department for Communities and Local Government' | 
organisation == 'Department for Environment, Food & Rural Affairs' | 
organisation == 'Foreign & Commonwealth Office' | 

organisation == 'Ministry of Defence' | 

organisation == 'Wales Office"') ] 


R> release corpus 
A corpus with 537 text documents 


排除 了 数量 稀 踊 的 目录 以 及 杂事 一 堆 的 办 公 室 ， 剩 下 的 语料库 包含 了 537 个 文档 。 这 里 要 注 明 的 是 ， 在 tm 组 件 里 进行 语料库 过 滤 总 体 来 说 
是 更 适合 的 。 例 如 ， 假 如 我 们 想 要 提取 包含 “Afghanistan” ( 即 阿富汗 ) 这 个 词 条 的 所 有 文档 。 要 做 到 这 一 点 ， 我 们 运用 了 tm_filter () kK 
数 ， 它 会 进行 一 次 全 文 检索 ， 并 返回 所 有 包含 该 辣 条 的 文档 。 


R> (afgh <- tm filter(release corpus, 
FUN = function(x) any(str detect (x, "Afghanistan")))) 
A corpus with 131 text documents 


我 们 发 现在 样本 中 ， 包 含 该 词 条 的 文档 不 少 于 131 个 。 
10.2.2 ”构建 一 个 词 条 -文档 和 矩阵 


现在 ， 让 我 们 把 注意 力 转移 到 用 于 统计 性 分 析 的 文本 数据 预 处 理 。 很 多 文本 分 类 方面 的 应 用 都 把 词 条 -文档 矩阵 作为 输入 。 简 单 地 说 ， 词 
条 -文档 矩阵 融 是 一 种 在 矩阵 中 安排 文本 的 方式 ， 里 面 的 行 代 表 每 个 词 条 ， 人 列 则 包含 了 文本 。 单 元 格 里 填 入 的 是 每 个 词 条 出 现在 具体 文本 中 的 频 
率 。 因 此 ， 昌 然 在 这 种 格式 下 ， 有 关 哪 个 词 条 出 现在 哪个 文本 的 信息 仍然 保留 了 ， 但 是 重 构 原 始 文 本 却 是 不 可 能 的 ， 因 为 词 条 -文档 矩阵 没有 包 
含有 天 位 置 的 信息 。 为 了 更 清晰 地 说 明 这 个 概念 ， 考 虑 一 个 模拟 例子 ， 里 面 有 4 个 句子 ，A、B、C、D 分 别 是 : 


A “Mary had a little lamb, little lamb” 


“whose fleece was white as snow” 


JW 


C “and everywhere that Mary went, Mary went” 
D "the lamb was sure to go” 


这 4 个 句子 可 以 重新 整理 为 如 表 10-1 所 示 的 和 矩阵 格式 。 表 格 里 大 部 分 的 单元 格 是 空 的 ， 这 对 于 词 条 -文档 矩阵 来 说 是 常见 情况 。tm 组 件 里 能 
把 文本 语料库 转变 为 词 条 -文档 矩阵 的 函数 是 TermDocumentMatrix () 。 对 我 们 的 新 闻 公 告 语料库 调用 该 函数 就 得 到 |: 


R> tdm <- TermDocumentMatrix (release corpus) 
R> tdm 
A term-document matrix (23350 terms, 537 documents) 


Non-/sparse entries: 99917/12439033 


Sparsity : 99% 
Maximal term length: 252 
Weighting : term frequency (tf) 


表 10-1 一 个 词 条 -文档 矩阵 的 例子 


7 vv ll 


had 1 


everywhere es | 


训 不 奇怪 ， 结 果 的 词 条 -文档 和 矩阵 是 极度 稀 路 的 ， 意 味 着 大 部 分 单元 格 里 连 一 条 记录 也 没有 ( 占 到 约 99%) 。 上 此外， 通过 对 行 里 的 词 条 进行 
更 细致 的 检查 ， 我 们 发 现 有 几 个 错误 ， 很 可 能 是 不 干净 的 数据 源 导 致 的 。 这 个 问题 可 以 通过 查看 Maximal term length (最 大 词 条 长 度 ) 的 数 
字 来 进行 核对 ， 该 数字 达到 252， 高 得 有 点 离谱 。 


10.2.3 ”数据 清理 


10.2.3.1 删除 单词 


为 了 处 理 上 述 的 一 些 错 误 ， 我们 通常 要 进行 几 种 数据 了 预 处 理 操 作 。 此 外 ， 数 据 预 处 理 还 要 解决 一 些 天 于 ( 半 ) 目 动 化 文本 分 类 的 问题 ， 这 
些 会 在 10.2.3.2 节 讨论 。 在 tm 组 件 里 已 经 有 一 些 预 处 理 操作 。 例 如 ， 有 人 会 希望 从 文本 里 去 掉 数 字 和 人 句号 字符 ， 而 不 至 于 损失 太 多 信息 。 这 个 
操作 既 可 用 于 原始 文本 数据 ， 也 可 用 于 设置 词 条 -文档 矩阵 时 。 为 了 便于 讲解 ,我们 会 针对 原始 文档 运行 这 些 函 数 。 


在 本 证 我 们 要 用 到 的 主要 消 数 是 tm_map () ， 它 接受 一 个 消 数 作为 参数 ， 并 对 整个 语料库 执行 。 要 在 文档 里 去 挥 数字 ， 我 们 可 以 调用 
R> release corpus <- tm map(release corpus, removeNumbers) 
我 们 还 可 以 利用 removePunctuation () 函数 去 擅 句 号 字符 。 不 过 ,该 消 数 会 直接 删除 标点 符号 而 不 插入 空格 。 在 文本 格式 错误 的 情况 


下 ， 这 样 的 操作 可 能 会 偶然 把 两 个 单词 合并 到 一 起 。 因 此 ， 为 了 安全 起 见 ， 我 们 可 以 利用 stringr 组 件 的 str_replace_all () 函数 。 该 函数 所 需 的 
附加 参数 可 以 直接 加 入 对 tm_map () 调用 的 参数 。[9 


R> release corpus <- tm map(release corpus, str replace all, pattern 
= "([[:punct:]]", replacement = " ") 


另 一 个 单 用 的 操作 是 删除 所 谓 的 终止 词 (stop word) 。 终 止 词 是 在 自然 语言 里 最 常见 的 词汇 ， 在 所 有 文本 里 应 该 都 会 相当 频繁 地 出 现 。 
不 过 ， 它 们 对 于 主题 的 评判 却 不 会 有 太 大 的 帮助 ， 因 为 我 们 可 以 估计 到 它们 在 不 同文 本 里 都 是 均匀 分 布 的 。 因 此 ， 去 掉 终 止 词 的 操作 与 其 说 是 


为 了 改进 评判 程序 ， 还 不 如 说 是 为 了 提高 计算 性 能 。 在 本 书 编写 的 时 间 点 ，tm 组 件 里 的 英语 终止 词 清单 包含 了 超过 100 个 词 条 。 


R> length(stopwords ("en") ) 


[1] 174 

R> stopwords ("en") [1:10] 
BE SL" "me" "my" "myself" "we" 
iS). "our "ours" "ourselves" "you" “vor 


同样 ， 我 们 可 以 利用 tm_map () 函数 删除 这 些 终止 词 。 


R> release corpus <- tm map (release corpus, removeWords, words = 
stopwords ("en") ) 


下 一 步 ， 有 人 通 党 会 把 所 有 字母 都 转换 为 小 写 ， 这 样 句 子 的 第 一 个 词 束 不 会 馈 算 法 视 为 不 同 的 单词 了 。 


R> release corpus <- tm map (release corpus, tolower) 


10.2.3.2 a FERN 

下 面 的 操作 可 能 比 前 面 介 绍 过 的 内 容 更 加 重要 。 很 多 文本 统计 性 分 析 会 在 评判 之 前 提取 词 条 的 词 干 。 这 种 操作 的 目的 是 把 文档 里 的 词 条 缩 
减 到 它们 的 词 干 (stem) 上 ， 从 而 把 相同 词根 的 单词 合并 到 一 起 。 已 经 一 些 词 干 提取 算法 被 提出 ， 在 R 里 也 有 针对 不 同 自然 语言 的 实现 。 我 们 
再 一 次 运用 来 自 tm 组 件 的 相关 函数 stemDocument () ， 通 过 tm_map () 函数 执行 。( 


R> library (Snowbal1C) 
R> release corpus <- tm map(release corpus, stemDocument) 


10.2.4 ” 稀 踊 度 和 n 元 文法 


既然 已 经 进行 了 所 有 需要 纳入 分 析 过 程 的 文档 预 处 理 操作 ， 那 么 我 们 可 以 重新 创建 词 条 -文档 矩 孟 了 。 注 意 ， 我 们 不 必 对 原始 文本 逐个 进行 
操作 。 我 们 可 以 在 创建 词 条 -文档 矩阵 的 同时 融 轻 松 地 完成 该 操作 。 这 是 通过 在 TermDocumentMatrix () 函数 里 的 控制 参数 完成 的 。 还 需要 
注意 的 是 ， 有 多 个 常见 的 加 权 (weighting) 操作 可 用 ， 相 比 仅仅 统计 词 条 出 现 频 率 ， 利 用 权重 会 更 为 精细 。 现 在 让 我 们 来 看 看 ， 该 操作 会 如 何 
SP ia) K - SCS ASIF AVE SSL, 


R> tdm <- TermDocumentMatrix (release corpus) 


R> tdm 
A term-document matrix (9452 terms, 537 documents) 


Non-/sparse entries: 74000/5001724 


Sparsity : 99% 
Maximal term length: 34 
Weighting : term frequency (tf) 


这 样 ， 词 条 的 列表 变 得 干净 了 很 多 ， 我 们 也 观察 到 Maximal term length 参 数 的 取 值 更 实际 了 。 还 有 一 个 经 常用 到 的 操作 是 在 运行 分 类 器 
之 前 从 文本 语料库 里 排除 稀 足 词 条 。 执 行 这 个 操作 的 主要 原因 是 提高 计算 的 可 行 性 。 除 此 之 外 ， 访 操作 也 可 以 被 视 为 数据 中 格式 化 错误 的 保护 
背 施 。 如 果 一 个 词 条 出 现 的 频率 非常 低 ， 很 有 可 能 是 它 包 含 了 一 个 错误 。 不 过 ， 去 除 稀 踊 词 条 的 不 足 在 于 ， 被 去 除 的 稀 蚊 词 条 可 能 为 分 类 提供 
有 价值 的 见解 。 下 面 的 操作 会 去 除 所 有 在 不 超过 10 个 文档 中 出 现 的 词 条 。 


R> tdm <- removeSparseTerms(tdm, 1-(10/length(release corpus) ) ) 
R> tdm 
A term-document matrix (1546 terms, 537 documents) 


Non-/sparse entries: 57252/772950 
Sparsity : 93% 

Maximal term length: 22 

Weighting : term frequency (tf) 


影响 统计 性 文本 分 析 的 一 个 常见 问题 ， 是 它 彻底 忽略 了 结构 及 上 下 文 ， 而 这 种 影响 方式 在 10.3 节 和 10.4 节 会 有 讲解 。 此 外 ， 词 条 也 可 能 具 
有 和 结构 及 上 下 文 相 关联 的 含义 ， 该 含义 可 能 处 于 几 个 相连 的 词 条 里 ， 而 不 是 在 单个 词 条 中 。 另 外 ， 还 有 一 些 问 题 往往 是 由 于 我 们 采用 的 方法 
无 法 处 理 人 否定 词 。 虽 然 对 所 有 这 些 问题 有 多 种 解决 方法 ， 但 是 一 种 可 能 的 方法 是 对 二 元 文法 (bigam) 构建 词 条 -文档 矩阵 。 二 元 文法 是 所 有 
文本 里 2 个 单词 的 组 合 ， 也 就 是 说 ， 在 句子 “Mary had a little amb" 里 ， 二 元 文法 就 是 “Mary had” “hada” “alittle” 和 “little 
lamb”。 在 tm 框架 里 ， 构 建 一 个 二 元 文法 的 词 条 -文档 矩阵 可 以 利用 RWeka 组 件 ， 采 用 R 和 Weka 程 序 的 接口 来 进行 (Hornik et al.2009; 
Witten and Frank 2005) 。 


R> library (RWeka) 
R> BigramTokenizer <- function(x) { 


R> NGramTokenizer (x, Weka control (min = 2, max = Sy} 
R> tdm bigram <- TermDocumentMatrix(release corpus, 

R> control = Lrøgtií 

R> tokenize = 

R> BigramTokenizer) ) 


基于 二 元 文法 的 词 条 -文档 矩阵 的 不 足 之 处 是 ， 和 矩阵 会 变 得 相当 巨大 ， 而 且 甚 至 会 更 稀 踊 。 


R> tdm bigram 
A term-document matrix (87040 terms, 537 documents) 


Non-/sparse entries: 116592/46623888 


Sparsity : 100% 
Maximal term length: 39 
Weighting : term frequency (tf) 


尤其 是 第 一 个 问题 更 天 键 ， 因 为 计算 工作 量 是 随 着 矩阵 大 小 而 增长 的 。 实 际 上 ， 对 于 特定 的 任务 ， 使 用 这 种 操作 的 分 类 准确 度 并 没有 显著 
的 增长 。 此 外 ， 上 述 的 菏 些 问题 也 并 不 是 太 严 重 。 想 想 否 定 词 的 问题 。 只 要 人 否定 词 是 随机 分 布 的 ， 它 们 融 不 至 于 对 分 类 任务 产生 太 大 的 影响 。 


在 继续 讲解 之 前 ， 让 我 们 来 考虑 一 种 对 结果 矩阵 的 有 趣 的 汇总 统计 。 利 用 findAssocs () 函数 ， 我 们 能 够 获取 和 矩 阵 里 词 条 之 间 的 关系。 有 具 
体 地 说 ， 衣 函数 会 计算 某 个 词 条 和 和 炬 阵 里 其 他 所 有 词 条 之 间 的 相 天 系数 (correlation) 。 


R> findAssocs(tdm, "nuclear", .7) 


nuclear 
weapon 23 
disarma 0.91 
treati 0.90 
materi 0.80 


在 以 上 调用 里 ， 我 们 请 求 获取 对 于 词 条 “nuclear” 的 关联 度 ， 条 件 是 相关 系数 等 于 或 大 于 0.7。 输 出 提供 了 一 个 所 有 符合 条 件 词 条 的 矩 
阵 ， 包 含 相关 系数 的 值 。 我 们 友 现 ， 在 采集 的 新 闻 公 告 里 , F “weapon” “disarma” “treati” 以 及 “materi” 和 “nudlear” 的 相关 性 最 


a 


[1] 文本 语料库 (corpus) 从 语言 学 上 说 ， 就 是 指 一 个 结构 化 的 文本 集合 。 

[2] 这 个 例子 里 的 文字 是 在 新 窗口 打开 链接 的 操作 说 明 ， 是 和 新 闻 公 告 内 容 无 关 的 一 些 技术 性 说 明文 字 。 

B) 不 去 掉 这 些 无 关 的 技术 性 文本 片段 ， 就 相当 于 假设 特定 的 政府 部 门 不 会 比 其 他 部 门 更 频繁 地 包含 诸如 外 部 链接 的 特性 (做 出 这 个 假设 应 该 没 
有 太 大 的 问题 ) 。 如 果 情 况 确实 如 此 ， 那 么 这 些 无 关 的 文本 也 很 容易 被 评判 程序 别 除 掉 。 

由 有 几 种 替代 方法 也 实现 了 这 种 效果 。 例 如 ， 我 们 可 以 直接 从 一 个 目录 (DirSource0) 创建 一 个 文本 语料库 ， 如 果 不 必 从 HTML 文 件 提取 新 闻 公 
告 一 或 者 说 ， 如 果 已 经 把 整个 源 代码 都 保存 在 文本 语料库 里 了 。 顺 便 提 一 句 ， 使 用 Corpus0 吕 数 可 以 在 R 的 内 存 里 创建 一 个 临时 的 语料库 ， 当 程 
序 终止 的 时 候 它 就 被 销毁 了 。 或 者 ， 我 们 也 可 以 创建 一 个 永久 的 语料库 ,保存 在 R 之 外 的 数据 库 里 。 

[5] 这 种 异常 情况 一 般 是 在 函数 出 错时 调试 代码 的 结果 。 

[6] 这 个 操作 的 不 足 之 处 是 ， 它 不 加 区 分 地 去 掉 了 所 有 的 标点 符号 。 而 有 人 项 望 更 细心 ， 比 如 ， 可 能 会 需要 保留 句子 里 的 破 折 号 。 

17] 注意， 这 里 的 词 干 提取 程序 要 求 安装 好 SnowballC 组 件 。 


10.3 ”有 监督 的 学 习 技 术 


在 本 节 和 10.4 节 ， 我 们 要 尝试 对 语料库 中 的 文档 所 从 属 的 主题 进行 评判 。 在 这 个 万 面 ， 我 们 必须 首要 明确 文档 的 隐 合 (latent) 和 明显 
(manifest) 特性 的 区 别 。 明 显 特性 摘 述 的 是 一 段 文 本 从 它 本 身 能 观察 到 的 方面 。 例 如 ， 一 段 文 本 是 否 包含 了 数字 ， 这 通 单 是 无 须 争 论 的 。 但 
对 于 隐 合 特性 就 不 是 这 样 了 。 一 段 文 本 的 主题 重点 可 能 会 很 有 争议 性 。 这 种 区 别 在 考虑 作为 我 们 评判 指标 一 部 分 的 不 确定 性 时 是 很 重要 的 。 在 
文本 分 类 过 程 中 ， 我 们 可 以 区 分 不 同形 式 的 不 确定 性 和 错误 分 类 。 


第 一 种 不 确定 性 处 于 算法 自身 中 ， 这 种 不 确定 性 的 来 源 可 能 是 有 限 的 可 用 数据 和 在 使 用 这 些 算法 时 通常 会 做 出 的 一 些 简 化 性 假设 ， 尤 其 是 
假设 文本 中 单词 的 顺序 对 它 所 反映 的 主题 没有 影响 。 在 考虑 前 面 的 分 析 方 法 中 采用 的 数据 组 织 方式 时 ， 这 一 点 尤为 明显 。 这 种 所 谓 的 词 袋 
(bag-of-word) 方法 认为 ， 仅 仅 根 据 某 个 词 条 是 否 出 现 就 可 以 得 到 该 文本 主题 重点 的 有 力 指标 ， 而 不 用 关心 它 出 现 的 具体 位 置 。 当 对 该 文本 
创建 一 个 词 条 -文档 和 矩阵 时 ， 我 们 会 忽略 任何 顺序 信息 并 把 其 中 的 文本 视 为 单词 的 集合 。 如 下 面 的 例子 。 如 果 你 观察 到 某 个 文本 包含 了 词 
J "Roe" “Wade” “Planned” 和 “Parenthood”， 你 就 有 相当 的 概率 正确 猜测 出 该 文本 从 某 个 方面 是 以 流产 问题 为 中 心 进行 表述 的 。 此 
外 ， 很 多 分 类 器 依赖 于 朴素 贝 叶 斯 分 类 算法 假设 。 该 假设 提出 ， 在 文本 中 对 一 个 词 条 进行 的 观察 是 和 对 其 他 词 条 的 观察 相互 独立 的 。 这 也 束 是 
说 ， 某 个 词 条 的 出 现 只 是 独立 增加 了 该 文本 属于 某 个 特定 主题 的 概率 ， 却 和 其 他 词 条 是 无 关 的 。 


除了 基于 这 些 简 化 性 假设 的 销 误 分 类 ， 人 在 文本 分 类 里 还 有 第 二 种 也 是 更 基础 万 面 的 不 确定 性 。 它 关系 到 在 文本 中 对 隐 合 特性 进行 分 类 。 由 
于 文本 的 主题 重点 并 不 是 可 以 直接 观察 的 数量 值 ， 因 此 ， 甚 至 会 有 一 些 错误 的 分 类 是 由 人 类 编码 者 产生 出 来 的 。 这 就 导致 在 对 隐 合 特性 进行 分 
类 时 有 两 个 挑战 。 第 一 ， 我 们 经 弟 面 临 着 训练 数据 是 人 类 编码 的 因而 可 能 包含 错误 的 情况 。 第 二 ， 要 区 分 错误 分 类 的 起 因 是 很 难 的， 也 残 是 
况 ， 我 们 很 难 判定 文本 的 钳 误 分 类 是 因为 技术 性 还 是 概念 性 。 


无 论 起 因 是 什么 ， 错 误 分 类 经 章 给 社会 科学 家 市 来 环 手 的 问题 。 我 们 经 党 想 要 进行 文本 分 类 并 将 评判 的 类 别 纳 入 后 续 分 析 中 ， 从 而 对 外 部 
因素 进行 解释 。 这 个 典型 研究 项 目 里 的 第 二 步 经 常会 受到 错误 分 类 的 阻碍 。 实 际 上 ， 在 一 个 真实 的 研究 场景 里 ， 我 们 根本 无 法 知道 错误 分 类 的 
程度 。 如 果真 的 有 一 个 标杆 ， 那 我 们 从 一 开始 就 不 需要 进行 文本 分 类 了 。 更 糟 柑 的 是 ， 我 们 并 不 能 假设 分 类 错误 在 各 个 类 别 里 是 随机 分 布 的 ， 
要 是 能 这 么 假设 ， 产 生 的 问题 也 不 会 那么 硅 张 。 相 反 ， 分 类 错误 对 于 具体 的 类 别 有 可 能 是 系统 性 的 偏差 (Hopkins and King 2010) 。 


牢记 了 分 类 技术 的 这 些 不 足 ， 我 们 现在 讨论 有 监督 学 习 法 的 技术 层面 。“ 有 监督 的 ”这 个 术语 有 反映 了 这 一 种 分 类 器 的 共性 ， 也 束 是 用 一 些 
预先 编码 的 数据 来 评判 未 分 类 的 文档 属于 哪 一 个 类 别 。 预 先 编 码 的 数据 饿 称 为 训练 数据 集 。 对 于 预先 编码 所 需 数据 的 大 小 很 难 提供 一 个 测算 
量 ， 因 为 分 类 的 准确 性 依赖 于 预先 编码 文档 的 长 度 、 文 档 中 词 条 使 用 的 可 分 离 程 度 以 及 其 他 一 些 因素 ， 也 就 是 说 ， 在 分 类 中 的 语言 差别 越 大 ， 
分 类 工作 融 越 容易 。 不 过 总 体 而 言 ， 错 误 分 类 的 程度 应 该 会 随 着 可 用 训练 数据 量 的 增加 而 降低 。 此 外 ， 确 保 在 训练 数据 中 对 所 有 类 别 都 有 到 分 
的 覆盖 度 也 是 很 重要 的 。 回 顾 一 下 ， 我 们 排除 了 那些 友 布 新 闻 公告 刚好 或 不 足 20 篇 的 单位 所 帮 布 的 新 闻 公 告 。 即 使 总 体 训练 数据 量 是 充足 的 

(在 我 们 的 案例 里 并 非 如 此 ) ,也 有 可 能 是 某 个 或 某 几 个 分 类 在 训练 数据 里 占据 了 统治 地 位 ， 这 样 在 覆盖 较 少 的 类 别 里 ， 提 供给 算法 的 信息 量 
BRD T 


有 监督 的 分 类 器 的 主要 优点 在 于 它们 给 研究 者 提供 了 机 会 指定 它们 目 己 选 择 的 分 类 模式 。 记 住 ， 我 们 感 兴趣 的 是 文档 的 隐 合 特性 ， 即 主 
题 ， 我 们 也 可 能 会 对 其 他 一 些 文档 的 隐 合 类 别 感 兴趣 ， 比 如 ， 它 们 在 意识 形态 或 情绪 方面 的 倾向 。 有 监督 的 分 类 器 通过 给 评判 程序 提供 不 同 的 


训练 数据 ， 可 以 为 评判 不 同 的 属性 提供 一 套 简 单 的 解决 方案 。 在 开始 对 语料库 进行 主题 重点 的 评判 之 前 ， 我 们 先 来 了 解 一 下 3 种 有 监督 的 分 类 
器 。 


10.3.1 SASH 


我 们 要 评判 的 第 一 个 模型 是 所 谓 的 支持 向 量 机 (Support Vector Machine, SVM) 。 这 个 模型 是 作为 在 有 监督 的 学 习 领 域 里 当前 最 知名 
和 最 常用 的 分 类 器 而 入 选 的 (D” Orazio et al.2014) 。SVM 采 用 了 数据 的 空间 表征 (spatial representation) 。 在 应 用 中 ， 我 们 保存 在 词 条 - 
文档 矩阵 中 的 词 条 出 现 次 数 代表 了 文档 在 高 维 空间 (high-dimensional space) 里 的 空间 坐标 。 回 顾 一 下 ,我们 在 训练 数据 里 引入 了 对 文档 进 
行 分 组 的 成 员 属性 ， 也 就 是 新 闻 公 告 的 友 布 单位 。 利 用 SVM， 我 们 尝试 把 向 量 在 最 适合 把 文档 划分 到 各 个 不 同 组 的 文档 特性 之 间 进 行 匹 配 。 具 
体 地 说 ， 我 们 按照 把 各 组 之 间 的 空间 最 大 化 的 方法 来 选择 向 量 。 在 评判 完成 之 后 ， 我 们 可 以 通过 检查 未 标记 文档 的 特性 属于 向 量 的 哪 一 边 来 进 
行 分 类 ， 并 相应 地 评判 它 所属 的 分 组 类 别 。 要 了 解 对 SVM 的 更 详细 介绍 ， 请 参见 Boswell (2002) 。 


10.3.2 ”随机 森林 


第 二 种 会 运用 到 的 模型 是 随机 森林 (random forest) 分 类 器 。 该 分 类 器 会 创建 多 个 决策 树 (decision tree) ， 并 把 大 量 决策 树 中 被 预 测 
率 最 高 的 成 员 类 别 判定 为 准确 概率 最 大 的 分 类 。 为 了 理解 这 个 逻辑 ， 让 我 们 先 考虑 单个 的 决策 树 。 决 策 树 会 基于 各 种 观察 到 的 特性 对 我 们 要 
类 的 对 象 所 属 的 成 员 分 组 进行 建 模 。 在 当前 的 例子 里 ,我 们 可 以 基于 在 文档 中 观察 到 的 词 条 ， 对 文档 的 主题 类 别 进行 评判 。 蛙 个 决策 树 是 由 
多 层 组 成 的 ， 会 连续 探 询 某 个 具体 特性 在 文档 中 是 否 出 现 。 在 分 支 上 的 决策 是 基于 在 测试 数据 集 里 观察 到 的 出 现 和 不 出 现 该 特性 的 频率 来 进行 
的 。 在 对 新 文档 的 分 类 过 程 中 ， 我 们 沿 着 决策 树 判 断 训 练 时 采用 的 特性 是 否 出 现 了 ， 从 而 预测 该 文档 的 成 员 类 别 。 随 机 森林 分 类 器 是 决策 树 的 
扩展 ， 它 创建 多 个 决 案 树 并 根据 各 个 决策 树 里 最 频 杜 出 现 的 预测 结果 来 进行 预测 .。 


频 
分 


10.3.3 RAK 


FA TARR HDS ASRAM (maximum entropy) 分 类 器 。 之 所 以 选择 了 该 模型 ， 是 因为 在 高 级 多 元 数据 分 析 方 面 有 一 些 经 验 
AVILA AREA CLARA. EAM Ree RUT SMS ST (multinomial logit) 模型 (一 种 广义 化 的 罗 吉 特 模型 ) 。 罗 吉 特 模型 用 于 预测 
样本 在 两 个 类 别 里 属于 其 中 之 一 的 概率 。 多 项 罗 吉 特 模型 则 把 这 个 模型 广义 化 了 ， 适 用 于 因 变 量 有 多 于 两 个 类 别 的 情况 。 在 分 类 任务 里 ,我们 
要 尝试 在 6 个 不 同类 别 里 对 文档 的 所 属 类 别 进行 评判 |。 


10.3.4 ”RTextTools 组 件 


在 R 里 已 经 有 多 个 组 件 可 以 进行 有 监督 的 分 类 。 对 于 目前 讲解 的 内 容 ， 我 们 要 介绍 RTextTools 组 件 。 该 组 件 会 提供 包 委 器 给 实现 了 一 个 或 多 
个 分 类 器 的 组 件 。 在 本 书 编写 的 时 间 点 ， 该 组 件 包 委 了 9 种 不 同 的 分 类 算法 。 利 用 一 个 共同 的 框 嫌 ，RTextTools 组 件 支 持 对 不 同 分 类 器 的 简单 访 
问 ， 而 无 须根 据 不 同 组 件 的 要 求 重新 整理 数据 ， 它 同样 也 可 以 作为 计算 模型 匹配 度 的 共用 框架 。 


把 多 个 分 类 器 运用 到 同一 个 数据 集 ， 这 样 做 最 明显 的 优势 束 是 分 类 器 的 个 别 缺 点 有 可 能 会 互相 抵消 。 把 多 个 分 类 器 的 模仿 预测 (modal 
prediction) 选 定 为 文本 的 分 类 结果 ， 该 分 类 结果 和 文本 隐 含 类 别 的 真实 状态 最 为 相似 ， 这 样 做 的 效率 往往 是 最 高 的 。 为 简单 起 见 ， 本 书 的 讲 
解 会 给 出 其 中 3 个 分 类 器 的 介绍 。 不 过 从 原理 上 说 ， 所 有 的 算法 都 会 执行 相同 的 任务 。 在 每 个 案例 中 ， 分 类 器 的 任务 就 是 评价 一 段 文本 和 训 | 练 数 
据 集 的 相似 程度 ， 并 选择 符合 得 最 好 的 标签 。 


10.3.5 ”应 用 : 政府 新 闻 公 告 


现在 来 看 实际 应 用 ， 我 们 首先 需要 把 数据 稍微 重新 组 织 一 下 ， 让 它 符合 RTextTools 组 件 的 要 求 。 首 先 最 重要 的 是 ， 该 组 件 接受 的 是 一 个 文 
档 - 词 条 和 矩阵 作为 输入 。 迄 今 为 止 ， 我 们 创建 的 是 一 个 词 条 -文档 矩阵 ， 但 tm 组 件 也 能 同样 轻松 地 输出 文档 - 词 条 矩 哇 。 这 里 适用 的 相关 函数 叫 作 
DocumentTermMatrix () 。 在 创建 新 矩阵 之 后 ， 我 们 售 奔 那些 只 在 10 个 或 不 足 10 个 文档 中 出 现 的 词 条 。 我 们 利用 之 前 介绍 过 的 
prescindMeta () 函数 ， 把 从 新 闻 公 告 采 集 的 标签 ( 即 organisation 元 数据 ) HASAN. 


R> dtm <- DocumentTermMatrix (release corpus) 

R> dtm <- removeSparseTerms (dtm, 1-(10/length(release corpus) ) ) 
R> dtm 

A document-term matrix (537 documents, 1546 terms) 


Non-/sparse entries: 57252/772950 
Sparsity : 93% 


Maximal term length: 22 
Weighting : term frequency (tf) 


R> org labels <- unlist(prescindMeta(release corpus, "organisa- 
ai Ka a badi 1.21) 

R> org labels[1:3] 

[1] "Foreign & Commonwealth Office" "Ministry of Defence" 

[3] "Ministry of Defence" 


最 后 ， 我 们 要 创建 一 个 容器 ， 里 面 是 用 在 评判 程序 里 的 所 有 相关 信息 。 这 是 利用 RTextTools 组 件 里 的 create container () 函数 完成 的 。 
除了 创建 的 文档 - 词 条 矩阵 和 标签 ， 我 们 还 指定 前 400 个 文档 是 训练 数据 ， 而 第 401~ 537 个 文档 是 需要 分 类 的 。 我 们 设置 virgin 属 性 为 FALSE， 意 
思 是 我 们 已 经 拥有 所 有 537 个 文档 的 标签 。 


R> library (RTextTools) 

R> N <- length(org labels) 

R> container <- create container ( 
dtm, 
labels = org labels, 
trainSize = 1:400, 
testSize = 401:N, 
virgin = FALSE 


创建 的 container 对 象 是 一 个 matrix_container 类 的 $4 对 象 。 其 中 包含 了 一 组 对 象 ， 用 于 有 监督 的 学 习 方 法 的 评判 程序 : 


R> slotNames (container) 
[1] "training matrix" "classification matrix" "training codes" 
[4] "testing codes" "column names" eVirgin*" 


下 一 步 ， 我 们 直接 把 保存 在 container 对 象 里 的 信息 提供 给 前 面 介绍 的 三 种 模型 。 这 是 通过 调用 train_model () 函数 进行 的 。[|] 


R> svm model <- train model (container, "SVM") 
R> tree model <- train model (container, "TREE") 
R> maxent model <- train model (container, "MAXENT") 


设置 好 模型 之 后 ， 我 们 要 利用 模型 参数 来 评判 剩余 137 个 文档 所 属 的 类 别 。 回 顾 一 下 ， 我 们 其 实 已 经 在 容器 里 保 仔 了 天 于 它们 类 别 的 信息 
( 融 是 友 布 单位 标 爷 ) 。 不 过 这 个 信息 不 是 用 于 评判 剩余 文档 的 类 别 的 〈 而 只 是 用 来 在 后 续 进行 正确 率 的 评价 ) 。 相 反 ， 文 档 所 属 的 类 别 纯粹 
是 根据 炬 阵 包含 的 词 条 向 量 评判 出 来 的 。 

R> svm out <- classify model (container, svm model) 


R> tree out <- classify model (container, tree model) 
R> maxent out <- classify model (container, maxent model) 


我 们 花 点 时 间 来 查看 一 下 输出 结果 。 在 所 有 三 种 模型 里 ， 输 出 结果 都 是 由 2 列 的 数据 框 组 成 的 ， 其 中 ， 第 一 列 代 表 评 估 的 标签 ， 而 第 二 列 提 


供 了 该 分 类 标签 的 概率 测算 。 


R> head (svm out) 
SVM LABEL SVM PROB 


1 Foreign & Commonwealth office 0.9854 
2 Foreign & Commonwealth Office 0.8667 
3 Foreign & Commonwealth Office 0.9900 
4 Ministry of Defence 0.9878 
5 Ministry of Defence 0.9842 
6 Foreign & Commonwealth Office 0.5800 


R> head (tree out) 
TREE LABEL TREE PROB 
1 Foreign & Commonwealth Office 0.9848 


2 Foreign & Commonwealth Office 0.9848 
3 Foreign & Commonwealth Office 0.9615 
4 Ministry of Defence 1.0000 
5 Ministry of Defence 1.0000 
6 Ministry of Defence 0.6667 


R> head (maxent out) 
MAXENTROPY LABEL MAXENTROPY PROB 
1 Foreign & Commonwealth Office 1.0000 


2 Foreign & Commonwealth Office 0.9960 
3 Foreign & Commonwealth Office 1.0000 
4 Ministry of Defence 1.0000 
5 Ministry of Defence 1.0000 
6 Foreign & Commonwealth Office 0.5204 


因为 知道 正确 的 标签 ， 所 以 可 以 研究 这 些 算法 给 新 闻 公 告 进行 错误 分 类 的 频 度 。 我 们 可 以 创建 一 个 包含 正确 和 预测 标签 的 数据 框 。 


R> labels out <- data.frame ( 
correct label = org labels[401:N], 
svm = as.character(svm out[,1]), 
tree = as.character(tree out[,1]), 
maxent = as.character(maxent out[,1]), 
stringsAsFactors = F) 


R> ## SVM performance 
R> table(labels out[,1] == labels out[,2]) 


FALSE ‘TRUE 
20 a i IS 
R> prop.table(table(labels out[,1] == labels out[,2])) 


FALSE ‘TRUE 
0.146 0.854 


R> ## Random forest performance 
R> table(labels out[,1] == labels out[,3]) 


FALSE TRUE 
a7 100 
R> prop.table(table(labels out[,1] == labels out[,3])) 


FALSE TRUE 
站 


R> ## Maximum entropy performance 
R> table (labels out[,1] == labels out[,4]) 


FALSE TRUE 
18 119 
R> prop.table(table(labels out[,1] == labels out[,4])) 


FALSE TRUE 
0.1314 0.8686 
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相当 于 85% 的 正确 率 。 本 次 应 用 中 最 差 的 分 类 器 是 随机 森林 ， 它 只 正确 评判 出 了 100 个 发 布 机 构 ， 也 就 是 73%。 


在 本 节 的 开始 部 分 ， 我 们 讲解 了 某 些 在 主题 分 类 过 程 中 可 能 会 产生 错误 的 因素 。 我 们 指出 在 模型 的 技术 特性 之 外 和 之 上 ， 在 一 些 主题 分 类 
的 概念 性 方面 可 能 也 会 产生 错误 ， 也 惑 是 说 ,特定 的 文档 属于 哪个 类 别 并 非 总 是 不 言 自 明 的 。 在 当前 应 用 里 ， 还 有 其 他 一 些 特性 也 可 能 会 增加 
主题 分 类 出 错 的 可 能 性 。 我 们 对 英国 政府 的 新 闻 公 告 进行 了 分 类 。 为 了 方便 ,我 们 选取 了 发 布 单位 作为 文档 标签 的 代理 。 不 过 ， 由 于 政府 部 门 
会 处 理 很 多 不 同 的 问题 ， 很 有 可 能 这 些 公告 覆 凑 的 问题 是 比较 宽泛 的 。 换 言 之 ， 为 了 改善 分 类 的 准确 度 ， 也 许可 以 纳入 更 多 的 训练 数据 ， 这 样 
我 们 束 对 各 政府 单位 所 负责 的 任务 有 更 完整 的 印象 。 


话 虽 如 此 ， 实 际 上 还 想 再 补充 一 句 ， 瞪 于 我 们 给 分 类 器 输入 的 数据 量 很 小 ， 这 个 分 类 结果 已 经 非常 精确 。 想 想 有 些 类 别 里 的 训练 数据 的 覆 
兰 度 只 有 20 来 个 文 要 ， 我 们 能 得 到 大 约 80% 的 分 类 准确 度 已 经 是 意 想 不 到 的 结果 了 。 这 个 结果 又 提出 了 前 面 提 及 的 一 个 问题 ， 不 要 问 是 什么 在 
我 们 的 结果 里 产生 了 错误 ,而 要 问 是 什么 产生 了 分 类 的 准确 度 。 一 个 针对 机 器 学 习 的 普遍 性 担忧 是 研究 者 缺乏 准确 了 解 结果 产生 原理 的 能 力 。 
由 于 我 们 并 不 像 在 进行 经 典 回归 分 析 时 所 习惯 的 那样 会 声明 变量 ,而 只 是 把 大 量 数据 传递 给 模型 ， 束 比较 难以 了 解 结果 是 如 何 关 生 的 。 算 法 完 
全 有 可 能 从 数据 中 挑 出 某 些 和 主题 根本 不 严格 相关 的 信息 。 假 定 每 个 政府 单位 的 新 闻 公 告 都 是 由 该 单位 的 某 个 政府 官员 签 友 的 。 如 果 是 这 样 ， 
算法 束 会 挑 出 不 同 的 官员 名 字 ， 把 它们 作为 最 适合 把 文档 划分 到 不 同类 别 的 指示 器 。 


忌 而 言 之 ， 有 监督 的 分 类 器 的 明显 优势 在 于 ， 它 们 能 够 运用 研究 者 选取 的 分 类 模式 。 反 过 来 说 ， 它 的 明显 务 势 在 于 ， 要 么 需要 收集 标签 ， 
要 么 需要 手工 对 感 兴 趣 的 大 量 数据 进行 编码 ， 把 它们 作为 训练 数据 。 在 10.4 节 ， 我 们 要 介绍 一 种 通过 根据 数据 对 主题 类 别 进 行 自动 评估 的 方 
法 ， 来 避免 它 的 后 一 种 务 势 。 


[1 注意， 我 们 对 这 三 种 分 类 器 使 用 了 默认 设置 。 我 们 可 以 利用 train_model0 遂 数 里 的 附加 参数 改 交 默认 效果 。 


10.4 ”无 监督 的 学 习 技 术 


有 监督 拷 术 的 一 个 替代 品 束 是 无 监督 文本 分 类 。 这 两 种 技术 的 主要 区 别 在 于 后 者 进行 文本 分 类 时 不 需要 训练 数据 。 相 反 ， 后 者 对 分 类 的 评 
判 是 根据 文档 以 及 分 类 中 的 成 员 关 系 进 行 的。 尤其 是 对 于 没有 辅助 人 员 的 个 人 人 研究 者 而 言 ， 用 无 监管 分 类 拷 术 对 大 规模 数据 进行 分 类 会 是 有 了 吸 
引力 的 选择 ， 而 且 这 也 符合 本 书 天 于 数据 采集 目 动 化 的 大 方 同 。 


无 监督 分 类 的 缺点 在 于 研究 者 无 法 指定 分 类 模式 。 因 此 ， 与 必须 手工 输入 内 容 信息 相 比 ， 无 监督 分 类 的 困难 是 要 在 没有 上 下 文 的 分 析 中 对 
结果 进行 解释 。 再 重复 一 遍 ， 我 们 要 评判 的 是 隐 含 的 文本 特性 。 我 们 还 已 经 说 明 过 ， 文 本 能 够 同时 表达 多 种 隐 含 类 别 。 作 为 例子 ， 我 们 来 看 一 
个 调研 媒体 及 设置 政治 议程 的 研究 问题 。 比 如 ， 我 们 想 要 给 一 个 政治 声明 和 媒体 报道 的 文本 语料库 进行 分 类 。 如 果 我 们 对 整个 语料库 执行 一 个 
无 监督 分 类 算法 ， 很 有 可 能 它 挑 出 的 差异 在 于 文章 的 调 门 而 不 是 内 容 。 换 句 话说 ， 有 可 能 无 监督 算法 会 把 政治 声明 里 的 意识 形态 主导 的 修辞 和 
在 政治 性 杂志 里 使 用 的 更 细腻 的 语言 看 成 是 不 同 的 。 这 个 问题 可 能 的 一 个 解决 办 法 ， 是 在 政治 和 媒体 两 类 文本 里 分 别 顺 序 运行 该 分 类 器 。 不 幸 
的 是 ， 对 语料库 的 两 部 分 运行 一 个 纯粹 无 监督 算法 会 产生 另 一 个 问题 ， 那 就 是 算法 一 次 运行 的 分 类 并 不 一 定 能 和 第 二 次 运行 的 分 类 匹配 上 。 实 

z 


际 上 ， 当 一 个 研究 者 要 根据 外 部 已 分 类 的 数据 (SAR) 对 数据 进行 匹配 时 ， 这 种 方法 在 有 监督 的 分 类 中 会 产生 更 普遍 的 问题 。 


取决 于 具体 的 研究 目标 ， 你 很 有 可 能 会 友 现 这 些 无 监督 分 类 的 特性 是 技术 优势 而 不 是 务 势 。 例 如 ， 无 监督 方法 能 够 从 它们 自身 中 创建 分 
类 ， 这 对 于 在 文本 语料库 里 划分 主线 的 研究 可 能 是 有 价值 的 。 反 之 ， 无 监督 分 类 往往 需要 研究 者 指定 语料库 需要 划分 类 别 的 个 数 。 这 融 需 要 对 
于 文档 主线 的 划分 进行 某 些 理 论 上 的 说 明 。 


10.4.1 隐 合 狄 式 分 布 及 相关 主题 模型 


我 们 在 本 节 剩 余部 分 要 简略 探讨 的 技术 叫 作 隐 含 狄 式 分 布 (Latent Dirichlet Allocation， 参 见 Blei et al.2003) 。 该 模型 假设 文本 语料库 
中 的 每 个 文档 由 一 个 主题 的 混合 体 (mixture) 组 成 。 文 档 中 的 词 条 会 被 分 配 一 个 对 应 肝 个 主题 的 概率 值 。 这 样 ， 文 本 属于 特定 分 类 的 可 能 性 残 
由 它 包含 单词 的 特征 以 及 它们 和 特定 主题 天 联 的 概率 决定 。 一 个 语料库 划分 多 少 类 别 ， 这 个 数目 可 以 任意 设 定 ， 并 且 也 应 该 仔细 选择 ， 以 有 反映 
研究 者 的 兴趣 和 之 前 的 判断 。 


隐 合 狄 式 模型 的 一 个 缺点 是 它 不 能 引入 多 个 主题 之 间 的 天 系 。 这 样 就 等 于 说， 对 于 一 个 天 于 主题 A 的 文档 ， 它 不 太 可 能 也 和 主题 B、C、D 关 
联 度 那 么 紧密 。 某 些 主题 之 间 会 比 和 其 他 主题 的 联系 更 紧密 ， 如 果 能 引入 这 样 的 天 系 ， 残 能 创建 出 更 实际 的 主题 性 文档 内 容 模型 。 为 了 把 这 个 
思路 纳入 他 们 的 模型 ，Blei 和 Lafferty (2006) 提出 了 相关 主题 模型 ， 它 支持 文档 中 主题 的 相对 显著 度 的 相关 系数 。 


10.4.2 WA: 政府 新 闻 公 告 


在 转 到 更 复杂 的 主题 性 文档 内 容 模型 之 前 ， 我 们 先 利用 层次 聚 类 (hierarchical clustering) 万 法 来 分 析 文 档 之 间 的 相似 天 系 。 在 这 项 技术 
中 ， 我 们 在 双边 距离 的 基础 上 对 相似 文本 进行 聚 类 。 和 以 前 一 样 ， 这 个 方法 也 依赖 于 词 条 的 出 现 次 数 。 层 次 聚 类 里 的 层次 的 意思 是 最 相似 的 文 
会 被 聚合 成 小 的 集合 ， 然 后 再 和 其 他 文本 聚合 成 更 大 的 集合 。 如 果 距 离 条 件 被 放松 到 足够 程度 ， 最 终 所 有 文本 都 聚合 在 一 起 。 


为 简单 起 见 ， 我 们 选择 “defence” “Wales” 和 “environment，food & rural affairs” 分 类 的 前 20 个 文本 ， 并 把 它们 保存 在 一 个 更 短 
的 语料库 里 。 


R> short corpus <- release corpus [c ( 

which(tm_ index ( 
release corpus, 
FUN = sFilter, 
s = "organisation == 'Ministry of Defence"' 

HLLE20] , 

which(tm_ index ( 
release corpus, 
FUN = sFilter, 


s = "organisation == 'Wales Office"' 
)) [1:20], 
which (tm index ( 
release corpus, 
FUN = sFilter, 
s = "organisation == 'Department for 
Environment, Food & Rural Affairs"' 


)) [1:20] 
) ] 


R> table(as.character(prescindMeta(short corpus, "organisation") [,2])) 


Department for Environment, Food & Rural Affairs 


20 

Ministry of Defence 
20 

Wales Office 

20 


我 们 为 缩短 了 的 语料库 创建 一 个 文档 - 词 条 矩阵， 并 舍弃 那些 稀疏 词 条 。 我 们 还 把 行 的 名 称 设置 为 那 3 个 类 别名 。 


R> short dtm <- DocumentTermMatrix(short corpus) 
R> short dtm <- removeSparseTerms (short dtm, 1-(5/length(short _ 
corpus) ) ) 


R> rownames(short dtm) <- c(rep("Defence", 20), rep("Wales", 20), 
rep ("Environment", 20) ) 


在 该 应 用 里 ， 相 似 的 指标 是 文本 的 欧 几 里 得 距离 (euclidean distance) 。 为 了 计算 这 个 度量 值 ， 我 们 对 每 个 词 条 用 文档 A 中 的 计数 减 去 文 
档 B 中 的 计数 ， 对 结果 求 平 方 ， 在 整个 向 量 里 求 和 ， 然 后 对 结果 求 平 方 根 。 这 个 计算 过 程 是 利用 dist () 遂 数 来 进行 的 。 结 果 答 阵 利用 
hclust () 函数 进行 聚 类 ， 该 国 数 通 过 多 次 迭代 地 合并 两 个 最 相似 的 集合 来 进行 结果 和 矩阵 的 聚 类 。 相 似 度 可 以 利用 一 个 树 形 图 来 进行 视 竞 检 
查 ， 图 中 的 集合 是 自 底 向 上 逐步 合并 的 。 这 也 就 是 说 ， 集 合 合并 的 位 置 越 高 ， 它 们 之 间 就 越 不 相似 。 


R> dist dtm <- dist (short dtm) 
R> out <- hclust (dist dtm, method = "ward") 
R> plot (out) 


结果 的 集合 大 致 履 盖 了 各 类 新 闻 公 告 的 主题 重点 ( 见 图 10-1) 。 尤 其 是 从 图 的 下 端 可 以 看 到 ， 来 自 同一 政府 蛙 位 的 两 条 新 闻 公 告 经 党 会 合 
并 在 一 起 。 不 过 ， 当 我 们 沿 着 树 形 图 向 上 看 的 时 候 ， 这 个 特征 融 变 得 不 那么 明显 了 。 在 某 种 程度 上 ， 我 们 友 现 图 的 一 端 有 一 


个 “environment” 新 闻 公 告 的 聚 类 集合 ， 还 有 “Wales” 新 闻 公 告 合并 的 情况 最 多 。 相 反 ， 关 于 “defence” 的 新 闻 公 告 则 分 散在 树 形 图 的 各 
个 部 分 。 


现在 让 我 们 继续 讲解 一 个 名 副 其 实 的 文本 无 监督 分 类 模型 : 隐 含 狄 式 分 布 。 在 topicmodels 组 件 里 提供 了 一 个 该 模型 的 实现 。 相 关 的 函数 
是 在 LDA () 函数 里 提供 的 。 因 为 知道 我 们 的 语料库 由 6 个 “主题 ”组 成 ， 所 以 我 们 选取 要 评判 的 主题 数量 为 6。 照 例 ， 该 国 数 接受 我 们 在 10.3 
节 创 建 的 文档 - 词 条 窍 阵 作为 输入 。 


R> library (topicmodels) 
R> lda out <- LDA(dtm, 6) 


在 对 该 模型 进行 计算 之 后 ， 我 们 惑 可 以 利用 posterior () BaVFAuR ICS EMI (posterior probability) 以 及 词 条 主题 的 概率 。 
我 们 把 主题 的 后 验 概率 保存 在 数据 框 lda_topics 里 ， 并 分 析 对 政府 各 单位 的 新 闻 公 告 分 配 的 平均 概率 。 我 们 设置 一 个 6x 6 的 矩阵 来 保存 政府 各 单 
位 主题 概率 的 平均 值 。 
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图 10-1 英国 政府 新 闻 公 告 的 层次 聚 类 结果 
R> posterior lda <- posterior(lda_out) 


R> 
R> ## Setting up matrix for mean probabilities 


R> mean topic matrix <- matrix ( 
NA, 
nrow = 6, 
neal = 6; 
dimnames = list ( 


names (table (org labels)), 
Sth Cie m 26) 


) 
R> ## Filling matrix 
R> for(i in 1:6) { 


lda topics <- data.frame(t (posterior lda$topics) ) 


Envirronment 


Wales 


Envirronment 
Envirronment 


mean topic matrix[i,] <- apply(lda_topics[, which(org labels == 


rownames (mean topic matrix) [i])], 1, mean) 
R> ## Outputting rounded matrix 
R> round(mean topic matrix, 2) 


Department for Business, Innovation & Skills 
Department for Communities and Local Government 
Department for Environment, Food & Rural Affairs 
Foreign & Commonwealth Office 

Ministry of Defence 

Wales Office 


Department for Business, Innovation & Skills 
Department for Communities and Local Government 


Topic i 
0.01 
0.00 
0.02 
0.01 
0.49 
0.00 

Topic 4 
0.02 
0.02 


Topic 2 Topic 3 


0.61 0.00 
0.04 0.04 
0.24 0.12 
0-07 0-05 
0.02 0.25 
0.10 0.324 
Topic 5 Topic 6 
0.02 0.33 
0.08 0.82 


_ Defence 
Envirronment 


Defence 


Wales 


= 
govo 
EEEE 
ERED So 
So oww 
SSEY Do 
ae 
a amn 
my 


Department for Environment, Food & Rural Affairs 0.06 0.07 0.49 
Foreign & Commonwealth Office 0.32 0.50 0.05 
Ministry of Defence 0.13 0.05 0.06 
Wales Office 0.04 0.13 0.39 


我 们 发 现 某 些 主题 倾向 于 和 来 自 个别 政 府 机 构 的 新 闻 公 告 有 很 强 的 联系 。 例 如 ， 主 题 2 往往 和 Department for Business, Innovation & 
Skills (商务 部 ， 创 新 和 技能 ) 高 度 相 关 ， 主 题 5 则 在 来 自 Foreign & Commonwealth Office (外 交 部 ) 的 公告 里 有 很 高 的 出 现 概 率 。 主 题 1 与 
Ministry of Defence (国防 部 ) 的 关系 最 为 密切 。 当 考虑 了 相关 主题 模型 时 ， 我 们 对 评判 概率 的 分 析 就 会 更 为 透彻 。 


男 一 种 对 评判 主题 的 分 析 方 法 是 考虑 该 主题 的 最 有 可 能 出 现 的 词 条 ， 并 尝试 得 出 轧 结 该 词 条 的 标签 。 这 种 分 析 可 以 利用 terms () AUH 


s= 


{To 
R> terms(lda out, 10) 
Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 6 
il, "TOPE" "busi" "rorc* "nation" "minist" "will" 
La “said?” gel "aerenc” fOritish? wl "govern" 
[3,] "command" "will" "royal" "Ore" "foreign" “local” 
[4,] "base" "univers" "arm" "peopl" "secretari" "new" 
is, "royal" "depart" "servic" "will "secur" "work" 
iG) “GroGge" "educ" "said" "afghan" "nuclear" “sisi” 
Li "orc? "gov" "day" "secur" "intern" "can" 
LB "soldier" "skill" "will" "govern" "govern" "councit* 
[9,] "marin" "colleg" "personnel" "travel" "meet" "make" 
HOD WiLL? "innov" REONT "can" "state" "communiti" 
主题 1、3、4 重 点 人 在 军事 方面 ， 主 题 ? 里 的 词 条 则 和 外 交 事 务 的 关系 比较 大 ， 主 题 6 的 重点 是 地 方 政府 ， 主 题 2 则 是 关于 商业 和 教育 的 。 这 种 


顺序 很 好 地 反映 了 前 一 段 的 观察 情况 。 不 过 ， 我 们 也 发 现 国防 部 (department of defence) 在 新 闻 公 告 里 占据 的 统治 地 位 导致 国防 公告 的 多 
个 方面 分 类 成 了 多 个 主题 ， 因 而 和 其 他 单位 的 新 闻 公 告 混为一谈 了 。 这 也 就 是 说 ， 虽 然 有 一 些 已 知 标签 和 评判 分 类 之 间 的 交集 是 可 信 的 ， 但 这 


种 交集 的 情况 还 远 远 不 够 理想 。 


让 我 们 继续 评判 一 个 相关 性 主题 模型 ， 运 行 一 个 更 实际 的 主题 混合 体 模型 。 照 例 ， 我 们 选取 主题 数量 为 6， 因 为 划分 新 闻 公 告 的 政府 单位 有 


6 个 


| 。 


K> ctm out <- CTM(dtm, 6) 


R> terms(ctm out, 10) 
Tose i1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 6 

[1,] "afghan" "foreign" "WLL "foreo" "govern" "will" 
[2 "Said" "minist" "busi" i "wei "new" 
BB = ope” "LLL" "local" "arm" "wale" "work" 
[4,] "oper" "secur" "govern" "command" "peopl" "project" 
(S1 “loca.” "Secretari" "bis" "defenc" gk ot i "provid" 
[6,] "afghanistan" "intern" "council" "servic" "work" "plan" 
[7,] "secur" "british" "new" "day" "must" "Said" 
[8,] "base" "meet" "vear" "personnel" "right" "system" 
[9,] "area" "nation" "depart" "oper" "Said" "use" 
a0] “patrol "nuclear" a mb belo Re ge a "make" "build" 


现在 我 们 找到 有 2 个 主题 (1 和 4) 是 明显 和 国防 (defense) 问题 相关 的 。(1 主 题 2 和 外 交 事 务 (foreign affairs) 相关 ， 主 题 3 和 地 方 政府 
(local government) 相关 。 主 题 5 的 词 条 在 相关 性 主题 模型 里 和 威尔士 (Welsh) 的 政治 有 比较 强 的 对 应 关系 。 主 题 6 的 标签 则 更 加 难以 确 


一 一 
A。 


我 们 可 以 把 具体 文档 属于 三 个 主题 之 一 的 概率 进行 绘图 表示 。 为 此 ， 我 们 要 计算 主题 的 后 验 概率 并 设置 2x 3 的 面板 ， 绘 制 出 各 主题 在 新 闻 
公告 里 的 排序 概率 。 结 果 如 图 10-2 所 示 。 
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图 10-2” 英国 政府 新 闻 公 告 的 相关 性 主题 模型 的 输出 


注意 ， 为 了 节省 空间 ， 我 们 只 显示 了 被 评判 的 6 个 主题 中 的 2 个 。 我 们 邀请 你 来 运行 该 模型 并 自己 绘制 所 有 的 后 验 概率 图 。 


R> posterior ctm <- posterior(ctm out) 
R> ctm topics <- data.frame(t (posterior ctm$topics) ) 


R> 

R= par(mirow = c(2,3), Cex.main = .8, pty = "s", mar = c(5, 5 1, 1) 
R> for(topic in 1:2) { 

R> for(orga in names (table (org labels) )) { 

R> tmp.data <- ctm topics[topic, org labels == orga] 

R> plot ( 

R> 1:ncol(tmp.data), 

R> sort (as.numeric(tmp.data)), 

R> type = "1", 

R> viim = G10 

R> xlab = "Press releases", 

R> ylab = str c("Posterior probability, topic ", 
topic), 

R> main = str replace (orga, "Department for", "") 
R> ) 

R> } 

R> } 


图 中 的 数字 很 好 地 符合 了 碍 看 各 种 主题 最 具 代 表 性 的 词 条 后 得 到 的 预 判 。 主 题 1 的 后 验 概 率 在 来 自 国防 部 的 新 闻 公 告 里 是 最 高 的 ， 而 主题 2 
在 来 自 外 交 部 的 新 闻 公 告 里 获得 最 高 概率 。 总 之 ， 根 据 相 关 性 主题 异型 ， 我 们 能 够 在 标签 和 评判 的 主题 重点 之 间 得 到 某 些 可 信 的 一 致 性 。 


小 结 


本 章 对 统计 性 文本 处 理 进行 了 简略 介绍 。 为 了 利用 网 络 上 的 海量 数据 ， 我 们 往往 必须 对 采集 的 信息 进行 后 续 处 理 。 尤 其 是 遇 到 文本 数据 
时 ,我们 需要 给 本 来 无 结构 的 数据 分 配 系 统 性 的 合 义 。 我 们 介绍 了 一 个 在 R 里 用 于 进行 统计 性 文本 处 理 的 框架 ， 即 tm 组 件 ， 以 及 把 文本 数据 转 
化 为 适用 于 研究 项 目的 数据 的 两 种 扩 术 : 有 监督 的 分 类 器 和 无 监督 的 分 类 器 。 


忌 结 这 些 技 术 ， 有 监督 分 类 器 的 主要 优点 在 于 研究 者 能 够 指定 用 于 分 类 算法 的 类 别 。 它 的 不 足 是 有 监督 分 类 器 通常 需要 相当 数量 的 训练 数 
据 以 及 因此 产生 的 人 工 工作 量 。 反 之 ， 无 监督 分 类 器 的 主要 优点 在 于 研究 者 能 够 跳 过 对 数据 手工 编码 的 步骤 ， 但 付出 的 代价 则 是 必须 事后 解读 
评判 的 结果 。 


最 后 ， 我 们 想 要 补充 说 明 ， 在 自动 化 文本 分 析 领 域 有 一 项 生机 孝 勃 的 研究 ， 因 而 本 草 可 能 是 最 早 的 写 出 来 束 包 含 了 有 点 过 时 的 信息 的 章节 
之 一 。 例 如 ， 它 的 某 些 进展 让 研究 者 能 指定 感 兴趣 的 类 别 ， 而 无 须 对 大 量 语料库 作为 训练 数据 进行 编码 。 这 是 通过 种 子 单 词 (seed word) 来 
进行 的 。 它 们 让 研究 者 能 够 对 其 要 分 析 的 具体 类 别 指定 具有 最 大 代表 意义 的 单词 (Gliozzo et al.2009; Zagibalov and Carroll 2008) . 


延伸 阅读 
企 10.1 节 ， 我 们 介绍 了 tm 组 件 最 重要 的 特性 。 不 过 ， 我 们 还 没有 了 解 它 的 全 部 潜力 。 如 果 你 打算 更 多 地 了 解 该 组 件 ， 可 以 对 照 Feinerer et 
al. (2008) 的 深入 讲解 进行 学 习 。 


自然 语言 处 理 和 统计 性 文本 分 析 仍 然 是 活跃 的 研究 主题 。 因 此 ， 两 方面 都 有 该 主题 的 大 量 贡 献 以 及 研究 论文 ， 涉 及 相关 领域 的 当前 研究 进 
展 。 要 对 本 章 介绍 的 主题 进行 更 深入 的 理解 ， 可 以 学 习 Grimmer 和 Stewart (2013) 的 相关 文献 ， 其 中 对 本 章 讨 论 的 相关 主题 有 简略 而 深刻 的 
介绍 。 要 更 深入 地 探讨 这 两 个 主题 ， 请 参阅 Manning et al. (2008) 。 


在 自动 化 文本 分 类 领域 的 热门 研究 主题 是 对 文本 中 情绪 或 观点 的 分 类 。 我 们 会 在 第 17 章 回 到 这 个 主题 ， 尝 斌 


对 http://www.amazon.com 丙 品评 价 中 的 情绪 进行 分 类 。 要 获得 对 该 主题 的 精彩 介绍 ， 请 参阅 Liu (2012) 。 


Slim ” 官 理 数据 项 目 


部 署 一 个 成 功 的 数据 采集 项 目 所 需要 的 不 仅仅 是 Web 技 术 方 面 的 知识 。 本 章 的 重点 是 R 以 及 创建 和 维护 大 规模 自动 数据 采集 项 目 所 需 的 操 
作 系 统 功 能 。 此 外 ， 我 们 还 会 讨论 组 织 和 编写 代码 的 民 好 实践 ， 这 有 助 于 在 出 错 的 时 候 加 强健 壮 性 和 可 追 哮 能 力 。 在 11.1 节 ， 我们 先 介绍 与 本 
地 文件 系统 交互 的 R 销 数 的 思 体 情况 。 在 11.2 节 ， 我 们 会 讲解 用 于 下 载 网 页 或 从 多 个 网 页 提取 相关 信息 的 迭代 式 的 代码 执行 。11.3 布 提供 了 一 个 
模板 ， 用 于 组 织 提取 代码 并 让 它 对 出 现 故 障 的 情况 更 为 健壮 。 本 章 的 结尾 部 分 会 概要 地 介绍 一 些 可 以 自动 执行 R 脚 本 的 系统 工具 ， 这 也 是 从 定期 
更 新 的 互联 网 资源 创建 数据 集 所 需 的 一 个 关键 需求 (参见 11.4 节 ) 。 


11.1 与 文件 系统 交互 


在 数据 项 目 里 经 单 出 现 的 一 类 R 了 数 是 专门 和 本 地 文件 系统 的 文件 和 文件 夹 打 交道 的 。 在 数据 项 目的 整个 过 程 中 ， 我 们 会 持续 性 地 和 操作 系 
统 里 的 文件 系统 进行 交互 。 网 页 要 在 本 地 保存 、 加 载 到 R 里 、 进 行 处 理 ， 然 后 在 后 续 处 理 或 分 析 完 成 后 骨 保 存 起 来 。 文 件 系 统 在 数据 采集 和 分 析 
工作 沅 中 承担 了 重要 角色 ， 扎 实 擎 握 有 关 硬 盘 的 知识 是 一 项 有 价值 的 辅助 技能 。 尽 管 脚本 的 方法 有 无 数 优点 ， 但 是 和 文件 管理 系统 的 交互 必须 
以 可 编程 的 方式 来 进行 。 笠 运 的 是 ，R 提 供 了 大 量 函 数 用 于 和 文件 系统 及 其 中 保存 的 文件 进行 交互 。 表 11-1 给 出 了 我 们 在 案例 分 析 及 数据 项 目 中 
所 需 文件 管理 基础 尔 数 的 总 体 情况 。 


表 11-1 用 于 文件 夹 和 文件 管理 的 基础 及 函数 


用 于 文件 夹 i i 2 eee wees 
- +} u 2 HH d i EA a A £ cz Ar 
管理 的 函数 dir () path 返回 path 里 的 文件 名 和 目录 名 的 字符 问 量 
在 path 里 创建 新 目录 ( 仅 限 最 后 一 层 ， 上 面 的 目录 
用 于 文件 夹 : ` aa a 用 : S Hi AA Æ — P 
pr M dir.create() | path, recursive | 必须 存在 )， 但 如 果 recursive = T, W) path 里 的 各 层 元 
aiii 素 均 会 被 创建 


rile pach |..， | RE RR SIT 


用 于 文件 管 ER Oae 返回 一 个 字符 问 量 ， 里 面包 含 关 于 path 里 的 文件 的 
理 的 函数 i = 信息 


返回 在 path 里 某 个 文件 是 否 存在 的 逻辑 值 





(ZŁ) 


ke 


BES 说 明 

测试 names 里 的 文件 是 否 存在 (mode = 0 时 )， 文 件 
是 否 人 允许 执行 (mode = 1 时 )， 是 否 人 允许 写作 (mode = 
2 时 )， 是 否 人 允许 谈 取 (mode = 4 时 )。 成 功 返 回 整 数值 
0， 失 败 返 回 -1 


file.access() names. mode 


unzip () zipfile, files 


z 
_ 把 路 径 from 里 的 文件 改名 为 to 
Mitia Epa 从 硬盘 删除 在 路 径 path 里 的 文件 
把 文件 file2 里 的 内 容 添加 到 文件 filel 的 后 面 
把 路 径 from 里 的 文件 复制 一 份 到 路 径 to 
返回 路 径 path 的 最 底层 
返回 路 径 path 里 除了 最 底层 之 外 的 所 有 部 分 
创建 一 个 包含 了 文件 名 es， 位 于 路 径 zipfile 的 zip 
用 于 处 理 压 文件 
缩 文件 的 函数 zip) | sense eaes 从 路 径 zipfile 的 zip 文件 里 提取 指定 的 files 文件 


(如 没有 指定 files， 则 提取 全 部 文件 ) 


过 完整 或 不 完整 路 径 进 行 传递 。 在 后 一 种 情况 下 ， 路 径 会 按照 工作 目录 〈 即 getwd () 的 路 径 ) 进行 扩展 。 文 件 的 路 径 也 可 
以 按照 缩短 格式 传递 ， 不 包含 用 户 的 home 目 录 (path.expand () 可 以 用 来 把 路 径 前 面 的 波浪 号 ~ 蔡 换 为 用 户 的 home 目 录 ) o 


11.2 处理 多 个 文档 或 链接 


在 网 络 抓 取 中 经 音 遇 到 的 任务 是 重复 执行 一 段 代 码 。 实 际 上 ， 使 用 一 种 编程 语言 对 于 数据 采集 是 最 有 价值 的 ， 因 为 这 样 让 研究 者 能 够 自动 
执行 那些 原本 需要 逐个 文件 、URIL 或 文档 进行 手工 处 理 的 烦琐 耗 时 的 任务 。 例 如 ， 根 据 一 个 URL 向 量 来 下 载 一 批 HTML 网 站 。 另 一 项 工作 是 处 理 
多 个 网 页， 比如 来 自 一 个 新 闻 网 站 的 多 个 页 面 ， 具 体 任 务 是 提取 文本 语料库 ,或 者 从 XML 文 件 里 存放 的 经 济 指标 数据 中 提取 表格 信息 ， 以 此 创 
建 一 个 数据 库 。 


本 节 会 给 出 示范 ， 只 需要 一 点 开销 ， 我 们 就 能 让 R 对 一 组 文件 重复 执行 一 个 消 数 ， 从 而 轻松 地 下 载 无 数 网 页 或 扫 摘 大 量 文档 ， 并 把 提取 出 的 
信息 进行 拼 沪 。 我 们 会 介绍 两 种 完成 该 目标 的 方法 : 第 一 种 是 使 用 标准 R 循 环 结 构 ， 第 二 种 则 是 使 用 plyr 组 件 的 功能 。 


11.2.1 使 用 for 循 环 


出 于 示范 目的 ， 我 们 来 看 一 下 /stocks 文 件 夹 里 的 11 个 XML 文件 的 集合 。[ 岂 这些 XML 文 件 包 含 了 4 个 科技 公司 的 股票 信息 。 我 们 的 兴趣 在 于 
提取 Apple 公 司 股票 2003~2013 年 全 年 的 每 日 收盘 价 。 我 们 可 以 把 这 个 问题 分 解 为 两 个 子 任务 。 首 先 ， 我 们 需要 得 到 一 份 提取 代码 ， 用 来 加 载 
某 一 个 XML 文件 、 从 中 提取 数据 、 并 把 目标 信息 重 构 为 需要 的 格式 。 第 二 个 任务 是 对 所 有 XML 文件 执行 上 述 的 提取 代码 。 一 个 直接 的 方法 是 把 
上 述 的 提取 代码 包装 在 一 个 for 循 环 里 。 循 环 是 标准 的 编程 结构 ， 可 以 帮助 构造 一 个 迭代 的 语句 ， 运 用 到 我 们 需要 从 中 提取 信息 的 一 批文 档 上 。 


第 一 步 是 获得 我 们 需要 处 理 的 文件 名 字 。 为 了 达到 这 个 目的 ， 我 们 可 以 利用 dir () 函数 产生 一 个 字符 向 量 ， 里 面 是 当前 目录 中 所 有 文件 的 
名 字 。 这 些 文件 名 会 被 插入 一 个 叫 all_files 的 新 对 象 里 ， 其 中 的 内 容 可 以 显示 在 屏幕 上 。 


R> all files <- dir("stocks") 

R> all files 
[1] "stocks 2003.xml" "stocks 2004.xml" "stocks 2005.xml1" 
[4] "stocks 2006.xml" "stocks 2007.xml" "stocks 2008 .Xml" 
[7] "stocks 2009.xml" "stocks 2010.xml" "stocks 2011.xml1" 
[10] "stocks 2012.xml" "stocks 2013.xml" 


下 一 步 ， 我 们 需要 创建 一 个 数据 结构 ， 在 里 面 人 存放 从 每 个 文件 中 提取 的 股票 信息 。 虽 然 在 处 理 的 最 后 阶段 为 了 分 析 方 便 也 许 有 必要 使 用 一 


个 数据 框 ， 但 是 我 们 在 这 里 会 设置 一 个 列表 作为 中 间 的 数据 结构 。 列 表 为 采集 信息 提供 了 灵活 性 ， 我 们 会 在 后 续 步骤 对 这 些 信息 进行 重新 组 
织 。 我 们 要 创建 一 个 名 为 closing_stock 的 空 列表 ， 把 它 作为 一 个 容器 ， 和 存放 来 自 每 个 文件 的 年 度 股 票 信息 。 


-/ No 


Rs closing stock <- list () 
提取 例 程 的 核心 由 一 个 按照 all_files 字 符 向 量 中 的 元 素数 量 进 行 的 for 循 环 组 成 。 这 个 程序 结构 可 以 对 每 个 文件 进行 和 迭代， 并 逐个 处 理 它 们 的 
内 容 。 


R> for (i in 1:length(all files)) { 
path <- str _c("stocks/", all files[i]) 


parsed stock <- xmlParse (path) 


closing stock[[i]] <- xpathSApply(parsed stock, "//Apple", getStock) 


首先 ， 我 们 要 构造 每 个 人 ML 文件 的 路 径 并 把 该 信息 保存 在 一 个 叫 path 的 新 对 象 里 。 这 些 信 息 是 下 一 步 所 需 的 ， 我 们 会 把 该 路 径 传递 给 解析 


久 数 xmlParse () 。 这 样 ， 融 在 一 个 叫 parsed_stock 的 新 对 象 里 创建 了 该 文件 的 内 部 表征 。 最 后 ， 我 们 要 通过 XPath 语句 的 手段 从 被 解析 对 象 
里 获取 所 需 的 信息 。 在 这 一 步 ， 我 们 要 提取 出 整个 Apple 忆 点 ， 并 在 下 面 要 讨论 的 提取 阅 数 里 进行 后 期 处 理 。 从 xpathSApply() 返回 的 值 存放 
在 我 们 之 前 定义 的 列表 的 第 i 个 位 置 。get_stock () 提取 函数 是 一 个 定制 函数 ， 它 处 理 整个 Apple 节 点 并 返回 每 天 的 日 期 和 收盘 价 。 


R> getStock <- function(x) { 
date <- xmlValue(x[["date"]]) 
value <- xmlValue(x[["close"]] ) 


c (date, value) 


我 们 接着 要 把 容器 列表 展 平 (unlist) ， 对 每 条 信息 进行 逐个 处 理 并 将 它 放 进 一 个 更 加 便利 的 数据 格式 。 这 里 融 要 用 到 一 个 数据 框 ， 并 选择 


更 适合 的 齐名。 
R> closing stock <- unlist(closing stock) 


closing stock <- data.frame(matrix(closing stock, ncol 
"value") 


= a, Dron = T) 


R> colnames(closing stock) <- c("date", 


最 后 ， 我 们 要 把 收盘 价 信息 重 新 组 织 为 数值 向 量 ， 日 期 信息 则 转化 为 Date 类 的 向 量 。 


By 


R> closing stock$date <- as.Date (closing stock$date, "%Y/%m/%d") 
R> closing stock$value <- as.numeric(as.character(closing stockS$value) ) 


我 们 准备 好 给 提取 出 的 数据 创建 一 个 视 党 化 的 呈现 。 利 用 plot () 创建 股票 价格 的 时 间 序 列 (time-series) 。 结 果 如 图 11-1 所 示 。 


R> plot(closing stock$date, closing stock$value, type = "1", main 
mu ylab = "Closing stock", xlab = "Time") 


700 - 





2004 2006 2008 2010 2012 2014 
时 间 


图 11-1 2003~2013 年 Apple 股 票 价 格 的 时 间 序 列 


11.2.2 ”使 用 while 循 环 和 控制 结构 


第 二 种 可 以 用 于 迭代 的 控制 语句 是 while () 表达 式 。 不 同 于 对 固定 序列 进行 的 迭代 ， 该 表达 式 会 在 指定 条 件 的 取 值 为 TRUE 时 一 直 执 行 一 
个 表达 式 。 看 看 下 面 的 代码 小 片段 ， 了 解 一 下 该 表达 式 的 简要 使 用 方式 。 


R> a <- 0 

R> while(a < 3){ 
a <-a+t+l 
print (a) 

} 

Bo 3 

[1] 2 

ia) 3 
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值 ， 这 段 循 环 融会 中 断 。 
除了 在 while () 语句 里 设 定 在 某 个 点 取 值 为 FALSE 从 而 跳出 循环 的 方法 ， 我 们 也 可 以 利用 一 个 if () 子 句 和 一 个 break 命 令 。 


R> a <- 0 
R> while (TRUE) { 
a <> a+ 1 


print (a) 
if (a >= 3){ 
break 

} 

} 

mah a 

fi} 2 

fat 3 


在 上 面 的 代码 片段 里 ， 我 们 在 while () 语句 里 设 吓 了 一 个 永远 取 值 为 TRUE 的 条 件 ， 这 样 就 创建 了 一 个 无 限 循 环 。 A, GR RIAITE, 
我 们 会 测试 a 是 否 大 于 或 等 于 0。 如 果 该 条 件 为 TRUE， 就 会 执行 到 break， 它 会 让 R 强 制 退出 当前 的 循环 。 注 意 我 们 在 代码 片段 里 是 如 何 利用 


if () 子 句 的 。 


在 网 络 抓 取 实践 中 ，while () 语句 适用 于 对 你 无 法 提前 知道 总 数 的 一 组 文档 进行 和 迭代。 考虑 下 面 的 场景 。 你 想 要 下 载 一 批 HTML 网 页 ， 其 
中 对 下 一 个 网 页 的 链接 髓 入 在 上 一 个 查看 的 HTML 网 页 的 源 代码 里 例如， 在 一 个 指向 下 一 个 网 页 的 链接 里 。 如 果 你 没有 碰巧 在 页 面 奔 部 找到 
一 个 包含 了 页 面 轧 数 信息 的 计数 器 ， 那 束 没 有 办 法 在 程序 里 指定 你 预期 的 页 面 数 量 。 在 这 种 情况 下 ， 你 可 以 利用 while () 语句 在 访问 网 页 之 前 
检查 某 个 链接 是 否 存 在 。 

R> # Load packages 


R> library (XML) 
R> library (stringr) 


R> 

R> # Mock URL 

R> url <- "http://www.example.com" 
R> 


R> # XPath expression to look for additional pages 
R> xpath for next page <- "//a[@class='NextPage']" 


R> 

R> #Create index for pages 
R> i e 1 

R> 


R> # Collect mock URL and write to drive 


R> current document <- getURL (url) 
R> write(tmp, str_c(i, ".html") ) 


R> # Download additional pages while there are links to additional pages 
R> while (length (xpathSApply (current document, xpath for next page, 
xmlGetAttr, "href")) > 0) { 


R> current url <- xpathSApply(current document, xpath for next page, 
xmlGetAttr, "href") 

R> current document <- getURL(current_url) 

R> write(current document, str_c(i, ".html") ) 

R> i <- i + 1 


11.2.3 ”使 用 plyr 组 件 


我 们 通常 希望 产生 的 数据 结构 是 表格 式 的 ， 用 变量 对 应 各 个 列 ， 每 行 代表 分 析 数 据 的 一 个 案例 或 单位 。 利 用 来 自 plyr 组 件 (Wickham 
2011) 的 功能 ， 可 以 轻松 实现 从 多 个 网 页 产生 表格 数据 结构 ， 该 组 件 支 持 更 快速 地 对 多 个 网 页 执行 提取 例 程 。 作 为 示 荡 ， 让 我 们 在 plyr 框 架 里 
再 把 前 面 的 例子 尝 斌 一遍。 作为 第 一 步 ， 我 们 要 为 本 地 硬盘 上 的 XML 文 件 构 建 相应 的 路 径 。 


R> files <- str c("stocks/", all files) 


我 们 要 创建 一 个 立 数 getStock2 () ， 用 来 解析 一 个 XML 文件 并 提取 相关 的 信息 。 这 部 分 代码 和 我 们 之 前 用 到 的 代码 很 相似 。 


R> getStock2 <- function(file) { 
parsedStock <- xmlParse (file) 
closing stock <- xpathSApply(parsedStock, 
"//Apple/date | //Apple/close", 
xmlValue) 
closing stock <- as.data.frame(matrix(closing stock, 
HOOL = 2, 
byrow = TRUE) ) 


unt 


该 函数 返回 一 个 nx2 的 数据 框 ， 第 一 列 人 存放 有 关 日 期 的 信息 ， 第 二 列 是 天 于 收盘 股价 。 现 在 我 们 准备 好 调用 ldply () 并 局 动 提 取 进 程 了 。 


R> library (plyr) 
R> appleStocks <- ldply(files, getStock2) 


ldply () 要 求 它 的 输入 是 一 个 列表 (list) 加 或 向 量 ， 它 返回 的 则 是 一 个 数据 框 (dataframe) . Idply () 会 对 files 里 的 每 个 元 素 执行 
getStock2 () ， 并 把 结果 按 行进 行 组 织 。 通 过 把 前 五 行 输出 到 控制 台 ， 我 们 可 以 确认 该 程序 是 否 正确 执行 了 。 


R> head (appleStocks, 3) 
V1 V2 

1 2013/11/13 520.634 

2 2013/11/12 520-01 


3 2013/11/11 519.048 


如 果 你 要 处 理 更 大 的 文件 库 ，plyr 也 提供 了 parallel 选 项 ， 如 果 把 它 设 为 TRUE， 融 可 以 并 行 执行 代码 ， 从 而 加 速 处 理 过 程 。 


[1 你 可 以 在 www.t-datacollection.com/matetials 找 到 这 些 数据 。 





[2] 注意 括号 里 粗 体 的 1 和 d， 这 就 是 ldply 这 个 函数 名 字 的 含义 。 译 者 注 


11.3 ”组 织 抓 取 程 序 


当 你 开始 定期 从 网 络 抓 取 数据 时 ， 融 会 友 现 有 大 量 任务 是 反复 出 现 的 。 民 好 编程 实践 的 一 个 核心 原则 是 你 永远 不 应 该 重复 自己 (Pon t 
Repeat Youself, DRY) 。 如 果 你 友 现 目 己 在 重复 地 写 一 些 代码 行 ， 或 者 复制 粘贴 你 代码 里 的 元 素 ， 那 么 你 束 应 该 开始 考虑 以 更 有 效率 的 方式 
组 织 你 的 代码 。 当 你 需要 在 定义 某 个 具体 功能 的 脚本 里 追 踩 所 有 的 代码 时 ， 问 题 融 容易 冒 出 来 。 对 这 类 问题 的 解决 办 法 是 把 你 的 代码 包 妆 成 六 
数 ， 并 把 它们 存放 在 固定 的 地 方 。 这 样 不 仪 能 保证 修改 只 在 一 个 地 方 进 行 ， 还 能 极 大 地 简化 代码 的 维护 工作 。 


除了 确保 把 代码 维护 得 更 好 ， 编 写 函 数 的 方式 还 有 助 于 功能 的 通用 化 。 当 你 要 对 很 多 数据 进行 一 系列 操作 时 (在 网 络 抓 取 工作 中 往往 是 这 
E) ， 这 么 做 对 你 的 代码 是 一 个 巨大 的 改进 。 实 际 上 ， 通 过 把 你 的 代码 写成 函数 ， 你 往往 可 以 通过 plyr 组 件 的 某 个 apply 函 数 把 你 的 函数 运用 到 
一 个 列表 或 向 量 上 ， 从 而 显著 加 快 R 代 码 的 执行 时 间 。 本 节 主 要 讲解 如 何 通过 利用 函数 把 你 的 代码 模块 化 。 


我 们 会 利用 在 9.1.4 节 讨论 过 的 场景 来 演示 晃 数 的 使 用 万 法 。 假 设 我 们 要 从 一 个 网 站 采集 所 有 的 链接 。 我 们 已 经 知道 XML 组 件 提供 了 
getHTMLLinks () 函数 ， 它 能 很 方便 地 从 HTML 网 页 采集 链接 。 实 际 上 ， 作 为 解决 频繁 出 现 的 任务 的 国 数 ， 该 函数 本 身 融 是 一 个 很 好 的 例子 。 
我 们 假 委 这 个 函 效 还 不 仔 企 ， 而 需要 构建 。 


我 们 在 第 2 章 已 经 了 解 ， 链 接 是 存放 在 <a> 元 素 的 href 属 性 里 的 。 因 此 我 们 的 任务 丈 是 玉 集 所 有 具备 该 属性 的 节 点 的 内 容 。 让 我 们 先 加 载 必 
要 的 组 件 并 指定 一 个 URL， 把 它 作 为 实际 例子 。 


R> library (RCurl1) 
R> library (XML) 
R> url <- "http://www.buzzfeed.com" 


通过 调用 htmlParse () 进行 网 页 内 容 解 析 ， 并 利用 xpathSApply () 采集 相关 信息 ， 我 们 融 可 以 对 这 个 网 站 执行 预定 的 任务 。 


R> parsed page <- htmlParse (url) 
R> links <- xpathSApply(parsed page, "//a[@href]", xmlGetAttr, "href") 


R> length(links) 
[1] 945 


现在 假定 我 们 想 把 这 些 步骤 运用 到 多 个 网 站 。 为 了 把 这 三 步 运用 到 其 他 站 点 ， 我 们 要 把 它们 包装 进 一 个 叫 作 collectHref () 的 国 数 。 这 是 
通过 把 必要 的 执行 步骤 保存 到 一 个 对 象 里 并 调用 function () 函数 来 完成 的 。 在 孙 数 调用 里 的 参数 代表 了 六 数 运行 时 所 针对 的 对 象 ， 在 本 例 中 
瓯 是 相关 的 URL。 


R> collectHref <- function (url) { 
parsed page <- htmlParse (url) 
links <- xpathSApply (parsed page, "//a[@href]", xmlGetAttr, "href") 


return (links) 
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R> buzzfeed <- collectHref ("http://www.buzzfeed.com") 


R> length (buzzfeed) 
[1] 945 


R> slate <- collectHref ("http://www.slate.com") 


R> length (slate) 
[1] 475 
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该 功能 可 以 利用 来 自 stringr 组 件 的 str_detect () 函数 ， 通 过 一 个 检测 字符 串 是 否 以 http 开 头 的 简单 正则 表达 式 来 完成 。 


R> collectHref <- function(url, begins.http) { 
if (!is.logical (begins.http) ) { 
stop("begins.http must be a logical value") 


} 


parsed page <- htmlParse (url) 
links <- xpathSApply(parsed page, "//a[@href]", xmlGetAttr, "href") 


if (begins.http == TRUE) { 
links <- links[str detect(links, " http")] 


} 


return (links) 
} 
注意 ， 我 们 还 在 国 数 里 加 入 了 一 个 测试 ， 检 查 begins.http 是 人 否 是 一 个 逻辑 值 。 如 果 它 不 是 ， 了 数 会 抛 出 一 个 错误 (由 stop () FÆ) 并 且 
不 会 返回 任何 结果 。 让 我 们 对 URL 例 子 运 行 修改 后 的 函数 ， 并 设置 begins.http 为 TRUE。 


R> buzzfeed <- collectHref(url, begins.http = TRUE) 

R> length (buzzfeed) 

[1] 63 

链接 同 量 明显 减少 了 。 现 在 让 我 们 再 次 对 基准 URL 调 用 该 遂 数 ， 但 是 把 begins.http 变 量 改 成 一 个 错误 的 类 型 。 

R> testPage <- collectHref(url, begins.http = "TRUE") 

Error: begins.http must be a logical value 
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如 ， 我 们 可 以 在 国 数 定义 里 设置 begins.http 默 认为 TRUE。 


R> collectHref <- function(url, begins.http = TRUE) { 
if (!is.logical (begins.http) ) { 
stop ("begins.http must be a logical value") 


} 


parsed page <- htmlParse (url) 
links <- xpathSApply (parsed page, "//a[@href]", xmlGetAttr, "href") 


if (begins.http == TRUE) { 
links <- links[str detect (links, "^http")] 


| 


return (links) 


这 样 ， 每 当 调用 该 浮 数 时 ， 它 丈 会 假定 我 们 只 想 末 集 那 些 明 确 包 含 了 http 序 列 的 链接 。 


一 旦 你 开始 在 R 里 编写 图 数 ， 融 会 友 现 ， 把 函数 组 合 到 主题 文件 里 是 把 它们 集中 起 来 并 用 于 各 种 项 目的 最 有 效 方法 。 在 模块 里 创建 一 套 冰 数 
的 优势 在 于 ， 它 能 确保 你 只 在 一 个 地 方 修改 特定 的 冰 数 ， 并 且 无 须 在 每 个 启动 的 项 目 里 反复 创建 相同 的 功能 。 相 反 ， 开 始 一 个 新 项 目的 时 候 , 
你 可 以 调用 必要 的 模块 ， 几 乎 束 和 你 加 载 一 个 从 CRAN 下 载 的 库 一 样 。 


保存 这 类 重复 使 用 的 函数 的 一 个 合理 方法 是 创建 一 个 专用 文件 夹 ， 在 里 面 把 函数 保存 为 专用 的 R 脚 本 文件 。 任 何 时 候 你 需要 利用 其 中 一 个 卫 
数 ， 你 都 可 以 利用 source () 命令 访问 它们 。 这 样 就 能 从 外 部 R 源 文件 自动 调 出 代码 。 假 如 我 们 已 经 把 前 面 讲解 的 国 数 保存 到 一 个 名 为 
collectHref.r 的 文件 里 了 。 为 了 运行 该 命令 ， 我 们 可 以 进行 如 下 操作 : 


R> source ("collectHref.r") 

R> test out <- collectHref("http://www.buzzfeed.com") 
R> length(test out) 

[1] 63 


最 后 ， 你 还 可 以 百 尺 竿 头 更 进一步 ， 目 己 创建 R 组 件 并 把 它们 上 传 到 CRAN 或 GitHub 上 。 


ot 


11.3.1 ”进度 反馈 的 实现 : 消息 和 进度 条 


当 进 行 网 络 抓 取 任务 时 ， 为 了 对 程序 何 时 能 结束 有 个 直观 印象 ， 获 得 程序 当前 进展 情况 的 视觉 化 反馈 总 是 有 用 的 。 这 种 反馈 的 一 个 非常 基 
础 的 版 本 ， 就 是 直接 输出 到 R 控 制 台 的 简单 文本 信息 。 我 们 可 以 利用 cat () 函数 来 实现 这 项 功能 。 作 为 示范 ， 考 虑 从 本 书 主页 下 载 股票 XML 文 
件 的 问题 。 文 件 存 放 在 如 下 的 路 径 : http://www.r-datacollection.com/materials/workflow/stocks。 让 我 们 先 给 它们 的 URL 创 建 一 个 字符 向 
量 并 把 它们 保存 在 一 个 叫 links 的 新 对 象 里 。 


R> baseurl <- "http://www.r-datacollection.com/materials/workflow/stocks" 


R> links <- str _c(baseurl, "/stocks ", 2003:2013, ".xml1") 


下 一 步 ， 针 对 links 的 长 度 设置 一 个 循环 。 在 循环 内 部 ， 我 们 下 载 文件 、 利 用 basename () 创建 能 返回 源 文件 名 的 合理 命名 、 然 后 把 XML 
代码 写 到 本 地 硬盘 里 。 


R> N <- length(links) 

R> for(i in 1:N) { 

R> stocks <- getURL(links [1] ) 
R> name <- basename (links [1] ) 


R> write (stocks, file = str _c("stocks/", name) ) 
R> Catb(2.. TOE"; N, ean) 

R> } 

EOE L1 

2 OE 11 

Sor Li 


LiL or At 
在 最 后 一 行 代码 ， 我 们 让 R 在 控制 台 打 印 出 已 经 下 载 的 文档 数量 。 我 们 在 消息 后 面 加 上 一 个 \n， 这 样 每 个 新 的 输出 内 容 都 会 被 写 到 新 的 一 


我 们 可 以 对 反馈 内 容 里 的 信息 进行 修饰 ， 例 如 ， 加 上 当前 正在 下 载 的 文件 名 。 


Re for(i in 1:N) { 


R> stocks <- getURL(links [1] ) 

R> name <- basename (links [1] ) 

R> write(html, file = str_c("stocks/", name) ) 
R> cat(i, "of", N, "-", name, ai") 

R> } 


1 of 11 = stocks 2003.xml 
2 of 11 - stocks 2004 .xml 
3 of 11 - stocks 2005.xml 


11 of 11 - stocks 2013.xml 
在 某 些 情况 下 ， 你 可 能 希望 得 到 的 不 是 关于 个 案 的 输出 ， 而 是 创建 总 结 信息 。 这 方面 一 种 可 能 的 情况 是 缩短 输出 的 内 容 ， 比 如 ， 每 10 次 下 
载 才 提供 一 条 信息 。 我 们 向 代码 里 加 入 一 条 if () 语句 ， 让 这 些 和 迭代 在 i 能 被 10 整 除 的 情况 下 才 输 出 信息 。 


R> for(i in 1:30) 
if (i %% 10 == 0){ 
caki “oak, 30, “ia 
} 
} 


10 of 30 
20 of 30 
30 of 30 


顺便 说 一 句 ， 你 可 能 会 想 要 把 程序 信息 保存 在 一 个 外 部 文件 里 用 于 事后 检查 ， 以 便 追 路 潜在 的 错误 。 有 可 能 这 里 的 信息 会 包括 比 打印 在 屏 
幕 上 的 信息 更 多 。 例 如 ， 你 可 以 使 用 write () 命令 把 进度 写 到 一 个 在 每 次 迭代 中 都 会 填写 的 日 志文 件 。 我 们 先 在 本 地 硬盘 上 创建 一 个 空 文件 。 


R> write("", "download.txt") 


然后 把 原本 写 到 屏幕 上 的 信息 添加 到 这 个 外 部 文件 里 。 为 了 让 这 些 信息 对 于 事后 检查 更 有 用 一 些 ， 我 们 加 入 了 有 关 下 载 文件 里 包含 的 字符 
效 量 的 信息 。 我 们 还 加 入 破 折 号 和 空格 ， 对 不 同 的 下 载 项 目 进行 视 部 上 的 分 隔 。 


R> N <- length(links) 
R> for(i in 1:N) { 


R> stocks <- getURL (links [ji] ) 

R> name <- basename (links [i] ) 

R> write(html, file = str_c("stocks/", name) ) 

R> feedback <- str c(i, "of", N, "-", name, eu sep = T E) 
R> cat (feedback) 

R> write (feedback, "download.txt", append = T) 

R> write (nchar (stocks), "download.txt", append = T) 

R> write("------------ wn, "download.txt", append = T) 

R> } 


在 很 多 情况 下 ， 最 好 的 有 反馈 信息 是 文本 形式 的 。 不 过 ， 你 也 可 以 创建 其 他 类 型 的 反馈 。 例 如 ， 你 可 以 利用 R 里 预定 义 的 txtProgressBar () 
为 你 的 函数 轻松 地 创建 一 个 简单 的 进度 条 。 对 于 我 们 的 例子 ， 先 用 两 端的 值 0 和 和 N (ERE) 初始 化 一 个 进度 条 。 我 们 设置 进度 条 的 样式 为 3， 
则 会 创建 一 个 进度 条 ， 在 它 的 右 端 显示 该 任务 完成 的 百分比 。 


R> progress bar <- txtProgressBar(min = 0, max = N, style = 3) 
下 一 步 ， 我 们 要 再 次 利用 之 前 介绍 过 的 代码 的 最 简短 版 本 来 下 载 文档 。 我 们 把 setTxt-ProgressBar () 命令 加 入 代码 中 ， 它 会 给 我 们 之 前 


切 始 化 的 进度 条 设 定 值 。 第 一 个 参数 据 定 我 们 要 变更 值 的 进度 条 是 哪 一 个 ， 第 二 个 参数 设 定 它 的 值 ， 在 本 例 中 值 分 别 是 1、2 和 3。 我 们 在 每 次 友 
代 之 后 利用 Sys.sleep () 增加 了 一 个 1 秒 的 延迟 ， 这 样 你 束 能 清楚 地 看 到 该 进度 条 的 变化 。 


R> for(i in 1:N) { 
R> stocks <- getURL(links [i] ) 


R> name <- basename (links [i] ) 

R> write(stocks, name) 

R> setTxtProgressBar(progress bar, 1) 

R> Sys.sleep (1) 

R> } 

你 甚至 可 以 创建 一 段 音频 提示 ， 标 志 某 段 代 码 的 执行 完成 了 。 例 如 ， 转 义 序列 \a 会 调用 警告 铃 。[1] 
R> for(i in 1:N) { 

R> tmp <- getURL(websites [i] ) 

R> write(tmp, str cl(str replace (websites [i], "http: //www\\.", wre Bs 
html") ) 

R> } 


R> cat ("\a") 
想 想 吧 ， 在 读 取 到 最 后 一 行 代码 小 片段 里 的 cat ("\a") 时 ， 会 发 出 ping! 的 一 声 。 
11.3.2 错误 和 异常 处 理 
当 你 正式 开始 抓 取 网 络 内 容 时 ， 就 会 被 异常 弄 得 奢 奢 绊 绊 。 例 如 ， 网 站 的 格式 可 能 缺乏 一 致 性 ， 让 你 没 法 找到 所 有 你 想 查 找 的 元 素 。 有 时 


候 很 难 把 函数 构建 得 足够 健壮 ， 让 它 能 处 理 所 有 这 些 异 剃 。 本 节 要 介绍 一 些 有 助 于 克服 这 些 问题 的 简单 技术 。 让 我 们 把 在 11.3 节 看 到 的 同样 任 
务 作为 一 个 例子 : 下 载 一 批 网 站 。 首 先 ， 用 一 个 拼写 错误 的 URL 来 扩充 这 个 列表 。 


R> wrong pages <- c("http://www.bozzfeed.com", links) 


当 对 所 有 了 网址 条 目 使 用 一 个 简单 循环 ， 试 图 把 所 有 网 站 的 内 容 下 载 到 硬盘 的 时 候 ， 我 们 会 上 帮 现 这 个 操作 失败 了 ， 因 为 函数 无 法 采集 URL 回 
量 里 的 第 一 个 条 目 。 氏 误导 致 的 问题 是 它们 会 中 断 整 个 代码 块 的 执行 。 即 使 余下 的 3 个 条 目 本 来 是 可 以 采集 到 的 (前面 已 经 演示 过 ) ， 但 是 一 个 
“合法 的 条 目 殊 会 让 整个 执行 过 程 都 终止 。 要 改变 这 种 情况 ， 最 简单 的 办 法 就 是 把 getURL () 表达 式 包 装 在 一 个 try () 语句 里 。 


R> for(i in 1:N) { 
R> url <- try(getURL (wrong pages [1] ) ) 


R> if(class(url) != "try-error") { 

R> name <- basename (wrong pages [i] ) 
R> write(url, name) 

R> } 

R> } 


注意 ， 我 们 增加 了 一 条 语句 来 测试 url 对 象 的 类 。 如 果 该 对 象 属于 try-error 类 ， 我 们 就 不 把 该 对 象 的 内 容 写 到 硬盘 里 。 把 代码 包装 到 try () 
语句 里 有 个 缺 扣 ， 束 是 你 会 把 错误 当 作 互 不 相关 的 而 丢 借 挥 。 这 是 一 种 很 强 的 假设 ， 由 于 在 你 的 代码 里 出 错 了 ， 往 往 有 必要 更 仔细 地 考虑 遇 到 
了 什么 异 单 。R 还 提供 了 tryCatch () 冰 数 ， 它 会 截取 错误 并 定义 出 错时 执行 的 动作 ， 是 一 种 更 灵活 的 机 制 。 例 如 ， 你 可 以 把 错误 记录 到 日 志 
里 ， 以 便 后 续 对 错误 的 系统 机 制 进行 分 析 。 首 先 ， 我们 要 创建 一 个 浮 数 ， 把 任务 的 两 个 步骤 合并 为 一 个 遂 数 。 我 们 还 要 设置 一 个 日 志文 件 ， 用 
来 在 代码 执行 过 程 中 导出 错误 和 相关 的 URL。 


R> collectHTML <- function(url) { 
R> html <- getURL (url) 

R> write(html, basename(ur1) ) 
R> } 

R> write("", "error log.txt") 


我 们 要 对 tryCatch () 语句 里 的 错误 处 理 逻 辑 进 行 定 制 ， 让 它 对 无 法 访问 的 网 站 打印 出 Not available 及 其 网 站 名 。 加 ] 


R> for (i in 1:N) { 
html <- tryCatch(collectHTML(site404[i]), error = function(err) { 
errMess <- str_c("Not available - ", site404[1i]) 
write(str c(errMess, "error log.txt") ) 


}) 


1] 用 户 已 经 在 R 里 实现 了 更 多 有 趣 的 提示 音 。 一 定 要 找 出 pingt 组 件 来 看 看 (参见 https://github.com/rasmusab/pingr) o 
[2] 在 本 例 中 ， 使 用 tryCatch0 远 数 相 比 try0 语 句 的 增值 是 相当 有 限 的 ， 因 为 前 者 的 错误 信息 在 信息 量 上 很 相似 ， 而 且 也 很 容易 写 到 外 部 文件 里 。 
使 用 tryCatch0 遂 数 相 比 try0 语 句 的 增值 来 源 于 我 们 可 以 根据 遇 到 的 错误 定义 定制 化 的 操作 。 这 个 简单 例子 只 是 用 于 讲解 。 要 了 解 能 指定 替代 操作 


的 错误 处 理 方式 ， 请 参见 5.4.7 节 。 


11.4 定期 执行 R 脚 本 


在 很 多 网 站 上 ， 内 容 的 小 部 分 或 大 部 分 都 会 定期 更 新 ， 这 样 会 让 这 些 资源 变 成 动态 的 。 比 如 ， 一 个 每 小 时 都 会 友 布 新 文章 的 新 闻 网 站 ， 或 
偶尔 上 发布 新 消息 的 非 政府 组 织 新 闻 公 告 库 。 

我 们 到 目前 的 讲解 都 隐 含 了 一 个 假设 ， 即 抓 取 可 以 在 一 个 一 次 性 任务 中 进行 。 不 过 ， 当 考虑 动态 网 络 资源 的 时 候 ， 在 更 长 的 时 间 段 里 采集 
言 息 可 能 丈 是 数据 项 目的 一 个 关键 方面 了 。 昌 然 没 有 什么 能 阻止 我 们 定期 地 手工 执行 一 段 肢 本， 但 这 个 过 程 是 烦琐 而 易于 出 错 的 。 本 节 要 讨论 
把 数据 科学 家 从 这 些 任务 中 解放 出 来 的 方法 ， 那 束 是 通过 设置 一 个 系统 任务 ， 在 后 台 自 动 局 动 抓 取 过 程 。 为 此 ， 我 们 可 以 利用 所 有 现代 操作 系 
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我 们 用 从 http://www.r-datacollection.com/materials/workflow/rQuotes.php 下 载 信息 的 例题 来 引导 本 节 的 内 容 。 对 该 站 点 的 抓 取 由 于 
它 的 动态 本 性 而 复杂 化 了 ， 该 站 点 每 分 钟 都 在 变化 ， 显 示 一 条 不 同 的 Ri 咎 录 。 我 们 要 开始 着 手下 载 一 天 内 所 有 的 语录 。 由 于 显而易见 的 原因 ， 手 
工 的 方法 根本 没有 考虑 的 必要 。 要 着 手 处 理 访 问题， 首先 要 拼 疼 一 套 广 持 从 该 网 站 的 某 个 实例 下 载 并 储 仔 信息 的 R 脚 本 。 第 一 行 代码 加 载 stringr 
组 件 ， 第 二 行 确保 我 们 有 一 个 叫 作 quotes 的 文件 夹 作为 下 载 网 页 的 容器 。 下 面 三 行 代 码 利用 R 内 建 的 download.file () 函数 进行 下 载 。 我 们 把 
这 个 下 载 例 程 保存 在 getQuotes.R 文 件 名 下 。 


R> library (stringr) 

R> if (!file.exists("quotes")) dir.create ("quotes") 

R> time <- str replace all(as.character(Sys.time()), ":", "_") 

R> fname <- str c("quotes/rquote ", time, ".html") 

R> url <- "http://www.r-datacollection.com/materials/workflow/rQuotes.php" 
R> download.file(url = url, destfile = fname) 


在 本 书 的 剩余 部 分 ， 我们 讲述 如 何 把 这 些 R 脚 本 和 系统 实用 程序 窝 套 在 一 起 ， 按 预定 义 时 间 | 间 隅 定期 执行 。 分 别针 对 Linux、Mac OS 和 


Windows 讨 论 解决 方案 。 
11.4.1 在 Mac OS 和 Linux 上 安排 定时 任务 

对 于 使 用 类 UNIX 操 作 系 统 (如 Mac OS 或 Linux) 的 用 户 ， 我 们 推荐 利用 Cron 来 创建 和 管理 基于 时 间 的 任务 。Cron 是 一 个 预 凌 的 通用 系统 
实用 程序 ， 支 持 设 置 所 谓 的 作业 (job) ， 它 是 在 系统 后 台 定 期 或 按 指定 时 间 点 运行 的 。 


对 于 任务 的 管理 ，Cron 利 用 了 一 种 叫 作 crontab 的 基于 文本 的 表 结构 。 一 个 crontab 包 括 了 有 关 特 定 动作 和 动作 必须 执行 的 时 间 的 信息 。 注 
意 ，Cron 不 管用 户 是 否 实际 登录 了 系统 都 会 运行 作业 。 虽 然 也 存在 设置 任务 的 图 形 用 户 界面 ， 但 使 用 文本 编辑 器 来 编辑 任务 更 为 方便 快捷 。 要 
创建 一 个 新 任务 ， 打 开 一 个 系统 shelll1] 并 输入 下 面 的 命令 。 


| 


该 命令 会 在 系统 的 默认 编辑 器 里 打开 和 登录 用 户 具 体 相 关 的 crontab。 如 果 你 喜欢 其 他 的 文本 编辑 器 ， 融 在 命令 前 面 填 上 对 应 编辑 器 的 名 字 
(如 nano、emacs 或 gedit) 。 取 决 于 你 使 用 的 操作 系统 ， 显 示 给 你 的 文本 文件 可 能 是 空 的 ， 也 可 能 包括 了 某 些 有 关 该 文件 编辑 方式 的 一 般 性 
注释 。 不 管 是 哪 一 种 情况 ， 因 为 crontab 要 求 每 项 任务 必须 出 现在 单独 的 一 行 里 ， 你 应 该 把 光标 往 下 移 到 文件 的 最 后 一 行 。 一 个 crontab 的 总 体 
布局 避 循 “[timelj[script]” 的 特征 ， 其 中 的 script 部 件 指向 一 个 shell 命 令 ， 而 time 部 件 则 描述 脚本 执行 的 时 间 特 征 。 


Cron 有 它 自己 表达 时 间 规 律 性 的 时 间 格 式 。 基 本 上 ， 这 个 时 间 格 式 包括 5 个 字段 ， 它 们 由 空格 分 开 ， 分 别 指示 分 、 小 时 、 日 、 月 和 星期 ， 
任务 就 是 在 这 些 时 间 点 执行 的 。 参 阅 表 11-2， 了 解 一 下 这 5 个 时 间 字段 允许 的 值 。 注 意 ， 这 5 个 字段 的 任何 一 个 都 可 以 空 着 不 填 ， 这 种 情况 在 
Cron 时 间 格 式 里 是 用 一 个 星 号 (*) 来 表示 的 。 


表 11-2 ”由 5 个 字段 组 成 的 Cron 时 间 格 式 


MIN 分 钟 字 段 0 一 59 

HOUR 小 时 字段 0 一 23 (0 表示 午夜 ) 
DOM 日 期 字段 1 一 31 

MON A FBS 1 ~ 12 或 文字 





来 源 : 改编 自 http://www.thegeekstuff.com/2009/06/15-practical-crontab-examples/。 


EX TSAR, FATUAGISeEiRy WATE, BHEART. ASAVECIIIIARIARE7I, BRLAR3 TAME. 


ms gasy 每 天 4: 15 执 行 脚 本 
15 16 * 1 * 1 月 份 时 每 天 4:15 执 行 脚本 
15 16* 10 1 月 份 且 星期 日 时 每 天 4:15 执 行 脚 本 


在 这 5 个 字段 的 任何 一 个 里 ,分 别 利用 “，” 或 “-”， 可 以 产生 连续 的 或 离散 的 时 间 序 列 单 位 。 


LS 10220 + e » 10 一 20 时 的 每 小 时 的 第 15 分 钟 执行 脚本 
15 10-20 * * 6,0 周 六 和 周 日 的 10 一 20 时 的 每 小 时 的 第 15 分 钟 执 行 脚本 


在 很 多 情况 下 ， 准 确 指定 时 间 对 于 给 定 任务 过 于 死板 了 。 相 反 ， 我 们 可 以 利用 Cron 时 间 模 式 来 表达 让 某 个 任务 在 特定 时 间 范 围 内 执行 的 意 
和 到。 推荐 的 万 法 是 利用 一 个 “*/n” 结 构 来 指定 n 个 相应 时 | 间 单 位 的 区 间 。 为 了 示 沁 该 用 法 ， 看 看 下 面 的 例子 。 


*/15 * 类 每 15 分 钟 执行 脚本 
15 0 */2 * * 每 隔 一 天 的 0:15 执 行 脚本 


任何 Cron 作 业 里 的 第 二 块 信息 是 必须 定期 执行 的 shell 命 令 。 如 果 你 之 前 从 来 没有 用 过 shell， 你 可 以 把 它 想象 为 一 个 基于 命令 行 的 用 户 界 
面 ， 用 来 访问 操作 系统 和 已 经 安装 的 程序 (WMR) 。 为 了 设置 一 个 新 的 任务 让 getQuotes.r 每 分 钟 执行 一 次 ， 向 crontab 里 加 入 下 面 一 行 : 


l */1 * * * * cd [DIRECTORY] && Rscript getQuotes.r 


我 们 首先 把 定时 特征 指定 为 “*/1***” ， 表 示 每 分 钟 重复 执行 。 这 后 面 跟着 的 是 脚本 部 分 ， 在 这 部 分 ,我 们 首先 把 目录 修改 为 存放 
getQuotes.r 的 文件 夹 ， 然 后 用 Rscript 可 执行 文件 运行 getQuotes.r。Rscript 是 一 种 脚本 前 端 ， 当 需要 在 shell 里 执行 R 脚 本 时 就 应 该 用 到 它 。 一 
旦 你 保存 了 这 个 crontab， 该 任务 就 被 激活 了 ， 会 在 后 台 执 行 。 


为 了 维护 Cron 诱 导 的 R 例 程 ， 保 持 从 脚本 中 产生 的 输出 (如 警告 或 错误 ) 的 忌 体 信息 是 有 帮助 的 。UNIX shellz 持 通过 对 Cron 作 业 进行 如 
下 的 扩展 ， 把 R 脚 本 的 输出 引导 到 一 个 日 志文 件 。 


l */1 * * * * cd [DIRECTORY] && Rscript getQuotes.r >> log.txt 2>&1 


11.4.2 ”在 Windows 平 台 上 安排 定时 任务 


在 Windows 平 台 上 ， 任 务 管理 器 (Windows Task Scheduler) 是 用 来 安排 任务 的 工具 。 要 找到 该 工具 ， 点 击 “ 开 始 一 所 有 程序 一 附件 一 
系统 工具 一 任务 计划 程序 ”。 


要 设置 一 个 新 任务 ， 单 击 “ 创 建 任 务 ”。 从 这 里 开始 ， 操 作 过 程 会 随 你 的 Windows 版 本 而 不 同 ， 不 过 界面 中 呈现 的 选项 应 该 是 非常 相似 
的 。 在 Windows 7 里 ， 我 们 看 到 的 是 一 个 有 5 个 标签 的 窗口 : 常规 、 触 友 器 、 操 作 、 条 件 和 设置 。 在 “常规 ”标签 下 面 可 以 设置 任务 的 名 称 。 
在 这 里 输入 “Testing R Batch Mode” 作 为 一 个 描述 性 的 标题 名 称 。 


在 “ 触 友 器 ”标签 中 ， 我 们 可 以 加 入 几 个 局 动 任务 的 触 皮 器， 参见 图 11-2。 有 一 些 是 可 以 按照 每 天 、 每 周 或 每 月 局 动 任务 的 时 间 表 触发 
器 ， 也 有 对 应 如 计算 机 局 动 或 休眠 等 事件 的 事件 触 上 友 器 ， 还 有 很 多 其 他 触 友 器 。 要 企 24 小 时 里 持续 地 每 分 钟 执行 一 次 getQuotes.r， 我 们 把 “i 
时 间 ” (On a schedule) 选 定 为 总 体 的 触 帮 器 ， 并 定义 它 在 一 天 里 按 1 分 钟 1 次 的 频率 重复 执行 。 最 后 但 也 同样 重要 的 是 ， 我 们 必须 确保 把 这 
个 一 次 性 定时 任务 的 局 动 日 期 和 时 间 定 义 为 任务 设 定 完成 之 后 的 未 来 某 个 时 间 点 。 


Begin the task: | Ona schedule 
Settings 


© Onetime Start: 12.02.2014 [gy 14:00:53 
© Weekly 


© Monthly 


| 
© Daily 


Advanced settings 
[5] Delay task for up to (random delay): |1 hour 


Repeat task every: 1 minutes r 





= C] Synchronize across time zones 


for a duration of: 1 day 


图 11-2 ”在 Windows 平 台 上 新 建 触 发 器 


在 设 定 触 友 器 之 后 ， 我 们 还 必须 告诉 程序 ， 如 果 触 上 友 了 任务 ， 要 做 的 事情 是 什么 。 “操作” 标签 正 是 声明 这 个 事情 的 地 方 ， 参 见 图 11-3。 
我 们 选择 “启动 程序 ”作为 这 里 的 操作 ， 并 利用 浏览 文件 按钮 选择 Rscript.exe 的 目标 文件 ， 它 应 该 放 在 类 似 于 C: \ProgramFiles\R\R- 
3.0. 和 2\bin\x6 人 小 这 样 的 地 万。 此 外 ， 我 们 在 “添加 参数 ” (Add arguments) 字段 加 入 getQuotes.r， 并 在 “起 始 于 ” (Start in) 字段 里 输入 


该 脚本 所 在 的 目录 。 如 果 需 要 日 志 ， 我 们 可 以 修改 这 个 程序 。 





You must specify what action this task will perform. 





Action: | 
Settings 


Program/script: 


"C:\Program Files\R\R-3.0.2\bin\x64\Rscript.exe" 


Add arguments (optional): 


Start in (optional): 





Browse... 


getQuotes.r 


CNFolderToR-Sc ript 


图 11-3 ”在 Windows 平 台 上 新 建 操作 


“程序 或 脚本 ”字段 : FAR.exe#4(tRscript.exe 
“添加 参数 ”字段 : 用 CMD BATCH-vanilla getQuotes.r log.txt 蔡 换 getQuotes.r 


CMD BATCH 人 告诉 R 在 批 处 理 模式 下 运行 ，-vanilla 则 用 于 确保 那些 可 能 干扰 该 脚本 执行 的 R 配 置 文件 或 工作 区 备份 不 会 被 保存 或 恢复 。 
log.txt 用 来 提供 日 志文 件 的 命名 。 现 在 可 以 确认 我 们 的 配置 ， 并 点 击 左 侧面 板 的 “任务 计划 程序 库 ” (Task Scheduler Library) ， 获 得 在 系统 
里 所 有 可 用 任务 的 清单 。 


[1] 根据 你 的 系统 情况 ，shell 会 有 不 同 的 访问 方式 。 在 Mac OS 可 以 打开 “Terminal (终端 ) ， 在 Ubuntu 上 可 以 找到 Tetminal 或 按 下 CTRL+ALT+ 工 


组 合 键 。 


三 部 分 一 组 案例 分 析 


第 12 章 美国 参议 院 里 的 合作 网 络 

第 13 章 ”从 半 结 构 化 文档 解析 信息 

第 14 章 利用 Twittet 预 测 2014 年 奥斯卡 奖 
第 15 章 ”绘制 姓氏 地 理 分 布 图 

第 16 章 采集 关于 手机 的 数据 

第 17 章 ”分析 产 品评 论 里 的 情绪 


所 有 案例 分 析 的 概览 


第 12 草 


案例 分 析 


美国 参议 院 
里 的 合作 网 络 


从 半 结 构 化 
文档 解析 信息 


利 用 Twitter 
预测 2014 FH 
斯 卡 奖 


经 制 姓氏 地 


采集 关于 手 
机 的 数据 


分 析 产 品评 
i 


从 thomas.loc. gov 抓 
评估 协作 网 络 的 结构 


从 加 州 气象 站 (ftp. 
wee.nres.usda.gov) 抓 取 
天 气 数 据 ， 构 建 基于 正 
则 表达 式 的 解析 天 

从 Twitter API 采 集 
HE X ( dev.twitter.com/ 
docs/api'streaming )， 对 
奥斯卡 奖 得 主 进行 基于 


从 dastelefonbuch.de 
MBH Ss ye, TEAL 
邮政 编码 并 与 地 理 坐 标 
进行 匹配 ， 创 建 家 族 姓 
氏 图 谱 


从 amazon.com 抓 
取 手 机 产品 数据 ， 在 
SQLite 数据 库存 储 数 据 


用 amazon.com 上 
手机 的 客户 评论 扩展 
SQLite 数据 库 ， 以 及 
基于 字典 和 分 类 的 情绪 
分 析 


抓 取 和 信息 提取 的 方法 


URL E., EMK 
达 式 


FTP 下 载 、 正 则 表达 
式 和 字符 串 操作 工具 


ii 过 streamR 对 数 
据 流 API 保 持 持 久 连 
接 、 正 则 表达 式 


HTML 表单 、XPath 
和 正则 表达 式 、R 的 地 
理 相 关 功 能 


URL 操作 、XPath 和 
正则 表达 式 


XPath、 利 用 tm 组 
件 的 功能 进行 数据 预 
Sh FB. fe Se Hh. fe 
Ai A SVM 





美国 参议 院 里 的 合作 网 络 


主要 组 件 


RLUTI、stringr、 


igraph 


RCurl. stringr 


streamR.,, twitteR. 
lubridate. stringr. 
plyr 


RCurl, stringr. 
XML. maptools, 


maps. rgdal 


RCurl. strigr. 


XML. RSQLite 


RCurl, string, 
XML. RSQLite, 
tm. RTfextTools, 


textcat 





Be A 


getURL (), str_ 
extract (). graph. 
edgelist(). get. 


adjacency () 


getURL(). str 
extract ({)}). str 


replace () 


EilterStream(). 
parse-Tweets(), 
str detect(}. 
agrep () 


getForm() 
htmlParse({). 
xpathSApply(). 
str extract (}. 


Function () 


htmlParse()., 
xpathSApply(). 
str extract () . 
dbGetQuery () 

dbReadTable(). 
dbGetQuery(). 
tm map(), Term- 
DocumentMatrix(). 


classify model () 


对 立法 机 构 的 内 部 工作 情况 进行 调研 是 有 内 在 难度 的 。 政 治 科学 家 一 直 对 议员 之 间 的 协作 情况 很 感 兴趣 ， 这 些 协 作 可 以 作为 几 十 年 来 立法 
行为 的 解释 因素 。 不 过 ， 在 持续 采集 全 面 的 数据 用 来 分 析 其 合作 特征 方面 ， 学 者 曾经 遇 到 过 一 些 困难 。 而 大 规模 、 机 器 可 读 的 天 于 立法 行为 的 
数据 库 的 出 现 ， 在 这 方面 开启 了 轿 新 而 且 前 途 远 大 的 研究 道路 。 其 中 ， 学 者 讨论 了 把 共同 提出 法 案 作 为 美国 立法 合作 的 代理 指标 的 可 能 性 。 我 
们 融 根 据 这 个 线索 来 调研 在 美国 参议 院 里 哪些 议员 之 间 有 合作 关系 。 


每 个 向 美国 参议 院 提出 的 法 案 都 会 涉及 某 位 作为 主 提案 人 (main sponsor) 的 参议 员 ， 但 是 其 他 支持 该 法 案 内 容 的 参议 员 也 可 以 自由 地 担 
任 共同 提案 人 (cosponsor) ， 这 在 参议 院 的 程序 里 是 一 种 常见 的 做 法 。 实 际 上 ， 在 很 多 实例 中 ， 一 个 法 案 会 有 很 多 共同 提案 人 。 一 些 研究 者 
最 近 已 经 开始 对 法 案 共同 提案 中 的 类 似 网 络 结构 进行 真正 的 评估 ， 对 该 结构 采用 网 络 分 析 方法 (network-analytic methodology) 是 最 适合 
的 。 让 利用 丰富 上 且 易于 访问 的 关于 法 案 共同 提案 人 的 数据 源 ， 给 研究 者 提供 了 进入 参议 员 合作 黑箱 内 部 的 有 趣 的 信息 。 此 外 ， 法 案 共同 发 起 是 
移动 的 目标 。 新 的 提案 会 持续 进入 记录 里 。 拥 有 自动 采集 这 些 数据 的 能 力 ， 就 让 研究 者 具备 了 独一无二 的 机 会 ， 在 这 个 合作 网 络 的 结构 发 生变 
化 时 ， 能 够 对 它 进行 分 析 。 


在 这 个 应 用 里 ， 我 们 为 了 复制 近年 来 提出 的 分 析 ， 创 建 了 必要 的 数据 。 为 简单 起 见 ， 我 们 只 汇集 了 关于 美国 第 111 届 国会 参议 院 的 法 案 共同 
是 案情 况 的 数据 ， 也 就 是 覆盖 了 从 2009 年 至 2010 年 的 任期 。12.1 节 和 12.2 节 提供 了 有 关 相 关 数 据 源 产 生 方 式 的 技术 细节 。 照 例 ， 本 章 关 注 点 是 
数据 采集 ; 因此 ， 我 们 的 分 析 只 涉及 一 毕 简 单 的 据 标 数据 。12.3 节 给 出 了 有 天 数据 的 使 用 方式 的 简要 概述 ， 既 有 搞 述 性 的 ， 也 有 基本 的 网 络 应 


用 。12.4 节 对 本 章 做 了 总 结 。 


[11] ”关于 该 主题 的 近期 研究 成 果 ， 请 参阅 Bratton and Rouse (2011) ~ Burkett (1997) ~ Cho and Fowler (2010) . Fowler (2006a) 、 


Fowler (2006b) 以 及 Zhang etal. (2008) 。 


12.1 有 关 法 案 的 信息 


我 们 的 第 一 个 任务 是 汇集 有 关 每 个 法 案 的 所 有 提案 人 和 共同 提案 人 的 一 个 列表 。 为 了 让 分 析 过 程 保持 简单 化 ， 我 们 只 会 采集 第 111 届 国会 的 
数据 ， 也 就 是 从 2009 年 到 2010 年 的 。 由 于 我 们 对 数据 采集 的 过 程 比 实 际 应 用 更 感 兴趣 ， 一 届 国 会 任期 内 的 材料 就 绰 综 有 余 了 。 如 果 你 希望 把 数 
据 分 析 用 于 一 个 实际 应 用 ， 要 纳入 更 多 立法 时 期 ， 对 脚本 进行 的 修改 也 是 相当 直接 的 。 


本 节 的 一 个 具体 目标 是 构建 一 个 答 阵 ， 在 里 面 存放 关于 某 个 参议 员 在 给 定 法 案 中 是 提案 、 共 同 提案 ， 还 是 根本 没有 参与 的 信息 。 该 数据 结 
构 的 模拟 例子 如 表 12-1 所 示 。 用 这 个 格式 人 存放 数据 ， 能 为 后 续 分 析 提 供 巨 大 的 灵活 性 。 比 如 ， 我 们 可 能 会 有 意 分 析 哪 位 参议 员 更 善于 招揽 共同 
提案 人 ， 或 者 我 们 会 想 分 析 哪 些 参议 员 经 部 一 起 对 同一 个 立法 项 目 进 行 共 同 提案 ， 以 便 找 出 参议 院 里 的 合作 小 团伙 。 如 果 从 一 开始 惑 根据 具体 
应 用 对 该 表 进 行 了 适当 的 裁剪 ， 那 么 利用 R 里 的 工具 ， 我 们 无 项 从 头 汇集 所 有 数据 融 可 以 轻松 地 重新 组 织 好 想 要 的 数据 表 。 此 外 ， 这 个 数据 矩阵 
甚至 还 能 用 来 进行 理想 点 测算 (ideal point estimation ， 参 见 Aleman et al.2009; Desposato et al.2011; Peress 2010) ， 不 过 ， 在 本 章 里 


` 会 讨论 到 这 个 问题 。 


表 12-1 提案 矩阵 的 数据 结构 





该 表格 显示 了 我 们 希望 产生 的 一 个 模拟 数据 集 示 例 。 行 列 出 了 每 个 法 案 ， 列 则 对 应 每 个 参议 员 。 单 元 格 里 显示 的 是 菜 个 参议 员 是 否 是 某 个 


法 案 的 主 提案 人 (Sponsor) 、 对 某 个 提案 进行 共同 提案 (Cosponsor) 或 根本 没有 签署 某 个 提案 (.) 。 


让 我 们 来 看 一 下 这 个 数据 库 。 幸 运 的 是 ， 美 国 国会 的 法 案 存 放 在 一 个 相对 容易 访问 的 数据 库 里 ， 地 址 是 : http://thomas.loc.gov. [eq 
的 网 络 抓 取 练习 的 第 一 步 是 对 数据 存放 的 方式 进行 检查 。 为 了 追踪 抓 取 程序 ， 我 们 可 以 


1) #JFFhttp://thomas.loc.gov/home/thomas.php, 
2) 转 到 “Try the Advanced Search” 。 

3) POMBE “Browse Bills & Resolutions” 。 
4) 选择 页 面 顶部 的 “111” 。 

5) 在 结果 页 面 点 击 “Senate Bills” 。 


结果 页 面包 含 了 第 111 届 国会 期 间 提出 的 4059 条 法 案 中 前 100 条 的 主要 信息 。 具 体 说 ， 我 们 可 以 看 到 每 条 提出 法 案 的 标题 、 提 案 人 、 共 同 提 
案 人 数量 和 最 后 一 次 针对 该 法 案 的 主要 行动 。 现 在 ， 点 击 第 一 条 法 案 5.1 的 Cosponsors (共同 提案 人 ) 。 除 了 之 前 提 到 的 元 素 ， 我 们 还 能 看 到 
该 法 案 17 位 共同 提案 人 的 列表 。 该 页 面包 含 了 我 们 目前 感 兴趣 的 所 有 信息 ， 这 极 大 地 促进 了 我 们 的 任务 。 把 该 页 面 的 URL 拿 出 来 看 


Æ: http://thomas.loc.gowcgi-bin/bdqueryD?d111:1:./list/bssd111SN.lst:@Q@Q@P。 尽 管 它 的 格式 有 点 古怪 ， 但 可 以 看 到 这 份 提案 的 序 
号 1 正好 处 于 URL 的 中 部 ， 紧 接 在 国会 届 数 111 的 后 面 。 为 了 确认 这 个 规律 ， 后 击 NEXT: COSPONSORS 按 钮 。 现 在 的 URL 

是 http://thomas.loc.gov/cgi-bin/bdquery/D?d111:2:./list/bss/d111SN.lst:@ @@P:&summ2=m&, 如果 忽略 URL 尾 部 的 变化 ， 我 们 可 以 
注意 到 URL 中 部 现在 是 2， 代 表 第 111 届 国会 的 第 2 个 法 案 。 


由 于 附加 的 尾部 并 非 获得 所 碍 找 信息 的 必要 前 提 条 件 ， 而 只 是 为 了 表达 从 一 个 网 页 到 另 一 个 网 页 的 引用 天 系 而 增加 的 ， 我 们 可 以 去 掉 它 。 
选择 一 个 随机 数 ， 如 42， 我 们 就 可 以 手工 改写 原始 URL 为 http://thomas.loc.gov/cgi-bin/bdquery/D? 
d111:42:./list/bss/d111SN.lst:@@@P。 果 然 灵 验 了 。 现 在 ,根据 网 络 抓 取 良 好 实践 里 的 规则 ， 我 们 要 把 所 有 4059 条 法 案 的 网 页 下载 到 硬盘 ， 


并 尝试 在 第 二 步 读 取 它 们 。[<| 我 们 通过 加 载 本 练习 后 续 部 分 需要 用 到 的 某 些 组 件 来 启动 R 会 话 。 


Rs library (RCurl1) 
R> library (stringr) 
R> library (XML) 

R> library (igraph) 


我 们 设置 的 抓 取 函 数 由 3 个 简单 步骤 组 成 ， 即 为 每 个 法 案 创 建 一 个 唯一 的 URL， 下 载 网 页 ， 并 最 终 把 页 面 作为 HTML 文 件 写 到 本 地 文件 夹 
Bils_111 里 。 我 们 还 加 入 了 一 个 简单 的 进度 指示 器 ， 用 于 监控 下 载 过 程 。 


R> # Iterate over all 4059 pieces of legislation 
R> for(i in 1:4059) { 
R> # Generate the unigue URL for each piece of legislation 


R> url <- str_c("http://thomas.loc.gov/cgi-bin/bdquery/D?d111:", 
R> i, ":./list/bss/d111SN.1st:@@@P") 

R> # Download the page 

R> bill result <- getURL(url, 

R> useragent = R.versionSversion.string, 
R> httpheader = c(from = "i@datacollection.com") ) 
R> # Write the page to local hard drive 

R> write(bill result, str _c("Bills 111/Bill 111 S", i, ".html")) 
R> # Print progress of download 

R> cat (i, "\n") 

R> } 


当 完 成 对 数据 的 下 载 后 ， 在 你 使 用 的 文本 编辑 器 里 检查 一 下 第 一 个 法 案 的 源 代码 。 注 意 ， 每 位 参议 员 (不 管 是 提案 人 还 是 共同 提案 人 ) 是 
市 有 链接 的 ， 这 让 抓 取 任 务 更 为 简化， 因为 我 们 只 需要 提取 这 种 特定 格式 的 所 有 和 链接。 注意 链接 中 的 细微 差别 ， 比 如 ， 提 案 人 Harry Reid 的 是 


这 样 : 


/cgi-bin/bdquery/?\&amp ; Db=d111\&amp ; querybd=@FIELD (FLD003+@4 
( (@1 (Sen+Reid++Harry) ) +00952) ) 


而 按 姓 氏 字 母 顺 序 排 第 一 位 的 共同 提案 人 Mark Begich 的 则 是 : 


/cgi-bin/bdquery/?\&amp;Db=d111\&amp;querybd=@FIELD (FLD004+@4 
( (@1 (Sen+Begich++Mark))+01898)) 


前 一 个 URL 指 定 了 Harry Reid 在 字段 3 (FLD003) 里 ， 而 Mark Begich 则 在 字段 4 (FLD004) 里 。 因 此 ， 很 显然 ， 国 会 网 站 对 提案 人 和 共 
同 提案 人 是 有 内 部 的 区 分 的 。 


我 们 可 以 利用 这 个 知识 ， 编 写 2 个 简单 的 正则 表达 式 提取 出 所 有 的 “字段 3” 链 接 ， 在 每 个 法 案 网 页 上 不 会 超过 一 个 ， 因 为 每 个 法 案 只 能 
一 位 提案 人 ， 以 及 所 有 的 “字段 4” 链 接 。 为 此 ， 我 们 把 Sen+Reid+ +Harry 形 式 的 参议 员 名 字 蔡 换 为 一 个 字母 、 加 号 以 及 句号 字符 组 成 的 序 


列 ， 即 [[: alpha: ]+.]+? 。] 然 后 ， 我 们 在 正则 表达 式 里 具有 特殊 含义 的 字符 前 面 都 加 上 双 斜 杠 ， 使 它们 能 够 按 原 义 进行 解释 。 


R> sponsor regex <- "FLDO03\\+@4\\ (\\ (@1\\ ([[:alpha:]+.]+" 
R> cosponsor regex <- "FLDO004\\+@4\\ (\\ (@1\\ ([[:alpha:]+.]+" 


既然 已 经 设置 好 了 正则 表达 式 ， 现 在 就 让 我 们 来 练 练 手 。 我 们 把 第 一 个 参议 院 法 案 网 页 的 源 代码 加 载 到 R 里 ， 并 提取 出 提案 人 以 及 共同 提案 
人 的 链接 。 


R> html source <- readLines("Bills 111/Bill 111 1.html") 

R> sponsor <- str extract (html source, sponsor regex) 

R> (sponsor <- sponsor[!is.na(sponsor) ] ) 

[1] "FLD003+@4 ( (@1 (Sen+Reid++Harry" 

R> cosponsors <- unlist(str extract all(html source, cosponsor regex) ) 

R> cosponsors [1:3] 

[1] "FLD004+@4 ( (@1 (Sen+Begich++Mark" "FLD004+@4 ( (@1 (Sen+Bingaman++Jeff£" 
[3] "FLD004+@4 ( (@1 (Sen+Boxer++Barbara" 

R> length(cosponsors) 

1] 19 


XB— YI), ERA, RIRS ANNAR, AHS SWAMREFEMHK, AS, 1 "+ SBRN 
格 ， 最 后 ， 去 掉 开 头 的 Sen 以 便 后 续 处 理 。 


R> cleanUp <- function (x){ 
name <- str extract (x, "[[:alpha:]+.]+$") 


name <- str replace all (name, fixed("++"), ", ") 
name <- str_replace all(name, fixed("+"), " ") 
name <- str trim(str_ replace (name, "Sen", nny )© 


return (name) 


estr trim (str_replace (name, "Sen", "") ) 表示 去 掉 了 开头 的 Sen， 这 是 因为 所 有 的 人 名 前 面 都 带 有 这 个 Sen， 它 表示 参议 员 
(Senator) 的 头衔 。 一 一 译 者 注 


对 前 面 的 结果 运用 cleanUp () Bax, MSE: 


R> cleanUp (sponsor) 
[1] "Reid, Harry" 
R> cleanUp (cosponsors) 


[1] "Begich, Mark" "Bingaman, Jeff" 
[3] "Boxer, Barbara" "Brown, Sherrod" 
[5] "Casey, Robert P., Jr." "Clinton, Hillary Rodham" 
[7] "Durbin, Richard" "Kennedy, Edward M." 
[9] "Kerry, John F." "Klobuchar, Amy" 
[11] "Lautenberg, Frank R." "Levin, Carl" 
[13] "Lieberman, Joseph I." "McCaskill, Claire" 
[15] "Menendez, Robert" "Schumer, Charles E." 


[17] "Stabenow, Debbie" 


这 是 一 个 完美 的 结果 。 现 在 我 们 要 对 整个 语料库 运行 这 段 代码 。 在 开始 之 前 ， 我 们 还 要 加 入 一 些 出 错 的 保险 措施 ， 以 便 确 保 代 码 能 提取 到 
我 们 想 要 的 内 容 。 为 了 这 样 做 ,我们 要 运用 关于 预期 结果 数据 的 一 些 知 识 。 我 们 知道 的 第 一 件 事 是 每 个 法 案 只 能 有 一 位 提案 人 。 相 应 地 ， 我 们 
要 检查 代码 是 否 没 有 返回 提案 人 或 返回 了 不 止 一 位 提案 人 。 


第 二 个 保险 措施 束 更 有 技 15 一 些 了 。 一 个 法 案 可 以 有 一 位 、 有 多 位 或 根本 没有 共同 提案 人 人。 幸运 的 是 ,每 个 网 页 都 会 告诉 我 们 它 列 出 的 共 
同 提案 人 数量 。 我 们 会 读 取 这 个 信息 并 把 这 个 数字 和 我 们 找到 的 共同 提案 人 数量 进行 比较 。 具 体 来 说 ， 我 们 可 以 在 源 代码 里 查找 
COSPONSOR (S) 和 COSPONSOR (some_number) 元 素 。 如 果 这 两 个 字符 串 都 没有 出 现 ， 我 们 就 知道 可 能 是 出 错 了 。 我 们 还 知道 ， 如 果 
在 这 些 字符 捉 里 的 共同 提案 人 数量 和 我 们 发 现 的 数量 不 匹配 ， 则 最 好 对 结果 再 仔细 检查 一 遍 。 我 们 把 这 些 错误 保存 在 一 个 列表 里 ， 以 便 事后 检 
查 。 在 本 节 的 一 开始 还 不 能 把 结果 保存 为 原 定 的 格式 ， 因 为 还 没有 所 有 提案 过 或 共同 提案 过 法 案 的 参议 员 清 单 。 因 此 ， 暂 时 把 结果 输入 一 个 专 
门 给 它们 准备 的 列表 。 这 个 过 程 如 图 12-1 所 示 。 


I| error collection <- list() 

2| sponsor list <- list() 

3| # Iterate over all 4059 pieces of legislation 
4| forli in 1:4059){ 

5| # Read the ith result 


6 html source <- readLines(str_c("/Bills 111/Bill 111 8", i, ".html")) 

7| # Extract and clean the sponsor 

8 sponsor <- unlist(str extract all(html source, sponsor regex) ) 

9 sponsor <- sponsor[!is.na(sponsor) | 

10 sponsor <- cleanUp (sponsor) 

ll| # Extract and clean the cosponsors 

12 cosponsors <- unlist (str extract all(html source, cosponsor regex) ) 

13 cosponsors <- cleanUp (cosponsors) 

14| # Input the results into the sponsor list 

15 sponsor list [[str_c("8.", 1)]] <- list (sponsor = sponsor, cosponsors = 
cosponsors) 

16| # Collect potential points of error / number of cosponsors 

17 fail safe <- str extract (html source, 

18 "COSPONSORS?\\ (([[:digit:]]{1,3}]$)\\)" 

19 fail safe <- fail safe[!is.na(fail safe) ] 

20 # Error - no cosponsor string 

21 if (length (fail safe) == 0){ 

2a error collection([[length(error collection) + 1]] <- c(i, "String = 


COSPONSOR - not found") 


23 } 

24| # Error - found more cosponsors than possible 

25 if (fail safe == "COSPONSOR(S)") { 

26 if (length (cosponsors) > 0) 

27 error collection[[length (error collection) + 1]] <- c(i, "Found 
cosponsors where there should be none") 

28 } 

29 lelsel 

30 right number <- str extract (fail safe, "[[:digit:]]+") 

31 # Error - Found wrong number of cosponsors 

32 if (length (cosponsors) != right number) { 

33 error collection([[length(error collection) + 1]] <- c(i, "Did not 
find the right number of cosponsors") 

34 } 

35 } 

36| # Error - Found no sponsors 

37 if (is.na(sponsor) ) { 


图 12-1 采集 法 案 提 案 人 清单 的 R 程 序 


error collection[[length(error_ collection) + 1]] <- c(i, "No sponsors 
n) 
} 


# Error - Found too many sponsors 


if (length (sponsor) > 1) { 


error collection[[length(error_ collection) + 1]] <- c(i, "More than 


one sponsor") 





图 12-1 (4%) 
在 汇集 了 提案 人 和 错误 的 列表 之 后 ， 我 们 来 分 析 后 者 。 


R> length (error collection) 
[1] 18 


在 error_collection 列 表 里 有 18 个 错误 ， 它 们 全 部 都 涉及 源 代码 中 共同 提案 人 数量 和 我 们 代码 采集 的 实际 人 数 不 符 的 问题 。 对 这 些 案例 的 人 
工 检查 发 现 ， 所 有 这 些 问题 都 可 以 追溯 到 对 共同 提案 的 撤回 内。 我 们 要 回顾 这 些 案例 ， 再 次 加 载 源 代码 ， 给 每 条 法 案 中 的 撤回 情况 进行 计数 ， 
并 把 共同 提案 人 的 清单 缩短 相应 的 人 数 ， 撤 回 的 共同 提案 人 都 是 列 在 最 后 的 。 


R> for(i in 1:length(error collection) ) { 

bill number <- as.numeric(error collection[[1i]] [1]) 

html source <- readLines(str_c("Bills 111/Bill 111 S", bill number, ". 
html") ) 


count withdrawn <- unlist ( 

str extract all ( 
html source, 
"\\ (withdrawn - [[:digit:]]{1,2}/[[:digit:]]{1,2}/[[:digit:]]{4}\\)" 
) 

) 


sponsor list[[str_c("S.", bill number)]]$cosponsors <- 
sponsor list[[str_c("S.", bill number) ]]$cosponsors [1: (length ( 
sponsor list[[str_c("S.", bill number)]]$cosponsors) - length( 


count withdrawn) ) ] 


} 


现在 我 们 有 了 一 个 所 有 在 第 111 届 国会 里 提案 或 共同 提案 过 法 案 的 参议 员 的 完整 清单 。 我 们 通过 unlist 来 展 平 这 些 数据 ， 然 后 把 它们 输入 一 
个 有 命名 的 字符 向 量 里 。 下 一 步 ， 我 们 排除 掉 那 些 重 复 的 数据 ， 并 按 字母 顺序 输出 最 前 面 的 5 个 参议 员 。 


R> all senators <- unlist(sponsor list) 

R> all senators <- unique (all senators) 

R> all senators <- sort (all senators) 

R> head(all senators) 

[1] "Akaka, Daniel K." "Alexander, Lamar" "Barrasso, John" 
[4] "Baucus, Max" "Bayh, Evan" "Begich, Mark" 


EPR, PANSRBAD— Hate NSE, B, DEANE, 


R> sponsor matrix <- matrix(NA, nrow = 4059, ncol = length(all senators) ) 
R> colnames (sponsor matrix) <- all senators 


R> rownames (sponsor matrix) <- paste("S.", seq(1, 4059), sep ="") 


最 后 ， 对 提案 人 列表 进行 迭代 ， 填 充 到 正确 的 单元 格 里 。 


R> for(i in 1:length(sponsor list) ) { 
sponsor matrix[i, which(all senators == sponsor list[[i]]$sponsor)] <- 
"Sponsor" 
if (length(sponsor list[[i]]$cosponsors) > 0) { 
for(j in 1:length(sponsor list [[i]]$cosponsors) ) { 
sponsor matrix[i, which(all senators == sponsor list[l[i]] 
Scosponsors[j])] <- "Cosponsor" 


} 
} 


R> sponsor matrix[30:35,31:34] 
Cornyn, John Crapo, Mike DeMint, Jim Dodd, Christopher J. 


S.30 NA NA NA NA 
S.31 NA NA NA NA 
S.32 NA NA NA NA 
S.33 NA NA NA NA 
S.34 "Cosponsor" "Cosponsor" "Sponsor" NA 
S.35 "Cosponsor" NA NA NA 


[1] 这 个 案例 不 经 意 间 分 析 成 了 网 络 快速 变化 及 其 对 于 网 络 抓 取 产生 影响 的 好 例子 。 国 会 图 书馆 的 网 站 http://thomas.loc.gov/ 会 在 2014 年 年 底 被 新 
49 3%, Zhttp://coneress.gov/ #4, (参阅 http://beta.congress.gov/about) 。 在 本 书 编写 的 时 候 ，http://thomas.loc.gov/ 和 http://beta.congress.gov/ 两 个 
站 点 都 是 活跃 的 。 改 变 网 站 常常 会 让 我 们 感到 意外 ， 页 面 结构 的 改变 甚至 网 站 的 整体 关闭 很 少 像 这 个 案例 中 如 此 透明 地 进行 告知 。 从 正面 角度 
看 ， 这 个 案例 分 析 展 示 了 来 自 废 弃 数 据 源 的 数据 在 适当 保存 的 情况 下 是 如 何 用 于 数据 分 析 的 。 

[2] 通过 从 本 书 网 站 下 载 现成 的 文件 ， 你 也 可 以 跳 过 这 个 步骤 。 

[3] 回顾 一 下 ， 我 们 不 需要 给 + Fo" 加 上 双 斜 本 ， 因 为 它们 在 字符 类 内 部 已 经 会 失去 特殊 含义 。 

[4] 意思 是 ， 本 来 支持 某 个 法 案 的 共同 提案 人 ， 后 来 因为 某 些 原因 撤销 了 对 该 法 案 的 支持 。 





译 者 注 


12.2 有关 参议 员 的 信息 


在 本 节 里 ,我们 要 采集 关于 参议 员 的 一 些 基本 背景 信息 ， 并 用 于 我 们 的 分 析 。 具 体 说 ,我们 对 参议 员 所 属 的 党 派 和 所 代表 的 州 感 兴趣 。 我 
们 要 从 国会 的 履历 存档 中 采集 这 些 数 据 。[1 让 我 们 提取 出 网 站 http://bioguide.congress.gov/biosearch/biosearch.asp 的 源 代码 。 它 主要 是 由 
一 个 HTML 表 单 组 成 的 ， 可 以 使 用 postForm () 命令 进行 访问 。 要 用 该 表单 获取 查询 结果 ， 我 们 必须 给 该 表单 里 的 不 同 选 项 指定 一 些 值 。 一 个 
HTML 表 单 可 以 有 多 个 类 型 的 输入 ， 其 中 的 两 种 用 在 了 这 个 案例 里 (参见 9.1.5 节 ) 。 里 面 有 三 个 文本 输入 框 和 三 个 带 有 一 组 预定 义 选项 的 选择 
框 。 让 我 们 先 通过 从 网 站 源 代码 采集 的 信息 来 看 一 下 里 面 的 选项 。 照 例 ， 根 据 民 好 实践 规则 ， 我 们 先 把 源 代码 保 人 存 到 本 地 硬盘 ， 然 后 再 访问 。 


R> url <- "http://bioguide.congress.gov/biosearch/biosearch.asp" 
R> form page <- getURL (url) 
R> write(form page, "form page.html") 


利用 正则 表达 式 ,访问 该 表单 ， 可 以 得 到 如 下 结果 : 


R> form page <- str _c(readLines ("form page.html"), collapse = "") 
R> destination <- str extract (form page, "<form.+?>") 

R> cat (destination) 

<form method="POST" action="http://bioguide.congress.gov/biosearch/ 
biosearchl.asp"> 


R> form <- str extract (form page, "<form.+?</form>") 

R> cat (str c(unlist (str extract all(form, "<INPUT.+?>")), collapse = "\n")) 
<INPUT SIZE=30 NAME="lastname" VALUE=""> 

<INPUT SIZE=30 NAME="firstname" VALUE=""> 

<INPUT SIZE=4 NAME="congress" VALUE=""> 

<INPUT TYPE=submit VALUE="Search"> 

<INPUT TYPE=reset VALUE="Clear"> 


R> cat (str_c(unlist (str extract _all(form, "<SELECT.+?>")), collapse = "\n")) 
<SELECT NAME="position" SIZE=1> 

<SELECT NAME="State" SIZE=1> 

<SELECT NAME="party" SIZE=1> 


我 们 看 到 选项 firstname、lastname 和 congress 是 文本 字段 ， 而 position、state 和 party 是 带 有 给 定 选项 的 选择 字段 。 我 们 感 兴趣 的 是 第 
111 届 国会 的 所 有 参议 员 清 单 ， 因 此 指定 这 两 个 字段 (的 值 ， 让 其 他 字段 空 着 。 目 标 URL 是 在 表单 标签 里 指定 的 。 对 于 这 个 请 求 ， 我 们 要 用 到 
RCurl 组 件 ， 它 提供 了 有 用 的 postForm () 冰 数 。 注 意 ， 该 表单 需要 application/x-www-form-urlencoded 编 码 的 内 容 ， 所 以 我 们 增加 了 参数 
style=' POST 。 


R> senator site <- postForm(uri = 


R> "http: //bioguide.congress.gov/biosearch/biosearchl.asp", 
R> lastname = "", 

R> firstname = "", 

R> position = "Senator", 

R> EE = PT 

R> party = "", 

R> congress = "111", 

R> style = 'POST' 

R> ) 

R> write (senator site, "senators.html") 


这 个 调用 的 响应 包含 了 我 们 要 寻找 的 信息 。 我 们 可 以 利用 readHTMLTable () 消 数 采集 这 些 信息 、。 


R> senator site <- readLines("senators.html", encoding = "UTF-8") 
R> senator site <- str _c(senator site, collapse = "") 

R> senators <- readHTMLTable(senator site, encoding="UTF-8") [[2]] 
R> senators <- as.data.frame(sapply(senators, as.character), 
stringsAsFactors = F) 

R> names (senators) [names (senators) =="Birth-Death"] <- "BiDe" 

R> head(senators, 3) 


Member Name BiDe Position Party State Congress (Year) 
1 AKAKA, Daniel Kahikina 1924- Senator Democrat HI 111(2009-2010) 
2 ALEXANDER, Lamar 1940- Senator Republican TN 111(2009-2010) 


E BARRASSO, John A. 1952- Senator Republican WY 111(2009-2010) 


Alix BSiSoSRRRES. RIS RAGARKREH eee senatorsmRehWaVvaRBeSee, Sec nni21pREehsGwA se 
配 。 回 顾 一 下 ， 我 们 创建 过 一 个 对 象 all senators， 里 面 保 存 了 所 有 提案 或 共同 提案 了 至 少 一 次 法 案 的 参议 员 的 名 字 。 


R> senators$Smatch names <- senators[,1] 

R> senatorsSmatch names <- tolower(senatorsSmatch names) 

R> senators$Smatch names <- str extract (senatorsSmatch names, "[[:alpha:]]+") 
R> all senators dat <- data.frame(all senators) 

R> all senators dat$Smatch names <- str extract (all senators datsall senators, 
"([[:alpha:]]+") 

R> all senators dat$match names <- tolower(all senators datsmatch names) 

R> senators <- merge(all senators dat, senators, by = "match names") 

R> senators[,2] <- as.character(senators[,2] ) 

R> senators[,3] <- as.character(senators[,3] ) 

R> senators[,2] <- tolower(senators[,2]) 


R> senators[,3] <- tolower(senators[,3]) 


我 们 对 姓氏 进行 匹配 ， 遗 憾 的 是 ， 在 第 111 届 国会 里 至 少 有 8 位 参议 员 是 同姓 氏 的 。 对 这 些 重 姓 的 情况 ， 可 以 再 用 名 字 来 进行 匹配 


R> allDup <- function (x){ 
duplicated(x) | duplicated(x, fromLast = TRUE) 


R> dup senators <- senators [allDup (senators [,1]),] 


R> senators <- senators [rownames (senators) %in% rownames (dup senators) == F,] 
R> dup senators[str detect (dup senators[,3], "\\("), 3] <- str replace all 
(dup senators [str detect (dup senators[,3], "A \("), < "i -+?\\(", mia 

R> dup senators[str detect (dup senators[,3], "\\("), 3] <- str_replace all( 
dup senators [str detect (dup senators[,3], "$"), 3], "$", "") 


R> for(i in nrow(dup senators) :1) { 
if (str detect (dup senators[i, 2], str extract (dup senators[i, 3], 
"(*,] [[:alpha:] .]+?S")) == F){ 
dup senators <- dup senators [-i,] 


R> senators <- rbind(senators, dup senators) 

R> senatorsSrownames <- as.numeric(rownames (senators) ) 
R> senators <- senators [order (senatorsSrownames) , ] 

R> dim(senators) 

[1] 109 9 


最 后 ,我们 把 提案 人 矩阵 里 的 列 名 蔡 换 为 这 些 缩 短 的 身份 标识 。 

R> colnames (sponsor matrix) <- senatorssall senators 

既然 已 经 及 集 了 有 关 法 案 和 参议 员 的 信息 ， 那 么 我 们 会 再 简单 介绍 这 些 数据 是 如 何 运 用 到 网 络 分 析 (network analysis) 里 的 。 如 果 你 只 
是 天 心 数据 米 集 而 不 是 网 络 分 析 ， 你 也 可 以 跳 过 12.3 市 。 


[1] 为 一 百 来 位 参议 员 编 写 一 套 脚 本 从 某 种 程度 上 说 有 点 费力 不 讨好 ， 也 许 编 写 读 取 网 站 的 脚本 都 比 手 工整 理 数 据 花 的 时 间 要 长 。 不 过 ， 这 么 做 
可 以 让 我 们 的 分 析 过 程 可 复制 并 且 容 易 扩 展 。 





[2] 即 congress 和 position， 分 别 代 表 国 会 届 数 和 职位 。 译 者 注 


12.3 “分 析 网 络 结构 


为 了 利用 网 络 分 析 技 术 分 析 数 据 ， 我 们 需要 把 数据 进行 重新 整理 ， 让 它 符合 网 络 分 析 相 关 组 件 能 理解 的 格式 。 两 种 常用 的 数据 整理 方法 是 
边 列 表 (edge list) 或 邻接 表 (adjacency list) 。 在 边 列 表 中 ， 我 们 要 创建 一 个 两 列 的 矩阵 ， 对 每 个 处 于 两 个 节点 之 间 的 边 ， 在 该 矩阵 里 给 这 
两 个 节点 措 定 一 个 边 的 连接 。 在 邻接 表 中 ， 我 们 把 网 络 数据 保存 在 一 个 节点 对 节点 的 和 矩 阵 里 ， 把 单元 格 设 置 为 对 应 两 个 节点 之 间 的 连接 数量 。 
里 然 邻接 表 会 有 更 高 的 计算 效率 ， 这 是 因为 我 们 的 数据 有 多 个 边 ， 也 就 是 说， 任意 两 个 参议 员 可 能 会 在 很 多 法 案 上 有 共同 提案 的 关系。 不 过 ， 
我 们 还 是 创建 了 一 个 边 列表 ， 以 便于 编写 代码 。 

在 网 络 分 析 中 ， 我 们 假定 每 个 具体 法 案 的 共同 提案 是 一 个 无 方向 的 关系， 不 管 某 个 参议 员 在 其 中 是 提案 人 还 是 共同 提案 人 。 例 如 ， 假 定 某 
个 法 案 有 一 位 提案 人 和 三 位 共同 提案 人 。 我 们 想 要 得 到 的 是 这 四 位 参议 员 之 间 的 每 个 可 能 的 二 元 天 系 (参见 表 12-2) 。 


表 12-2 ”四 位 假设 人 物 之 间 的 二 元 关系 


该 表 显示 了 一 个 结果 图 的 边 列表 例子 。 有 具体 来 说 ， 它 显示 了 对 4 位 输入 的 参议 员 的 所 有 6 种 可 能 的 二 元 组 合 。 


在 R 里 已 经 有 个 简单 的 函数 可 用 了 ， 即 combn () ， 我 们 会 用 它 找到 所 有 这 些 二 元 关系 。 我 们 创建 一 个 两 列 的 空 边 列表 和 矩 阵 ， 并 对 12.1 忆 
的 提案 人 和 共同 提案 人 和 矩 阵 进 行 迭 代 。 在 每 次 迭代 里 ,我 们 要 从 一 行 里 提取 所 有 的 非 空 元 素 ， 找 到 所 有 可 能 的 组 合 ， 并 把 产生 的 两 列 和 矩阵 加 到 
最 终 和 矩阵 里 。 


R> edgelist sponsors <- matrix(NA, nrow = 0, ncol = 2) 

R> Eor(i. in 1:nrow(sponsor matrix) ) { 

R> if (length(which(!is.na(sponsor matrix[i,]))) > 1) { 

R> edgelist sponsors <- rbind( 

R> edgelist sponsors, 

R> t (combn (colnames (sponsor matrix) [which(!is.na 
(sponsor matrix[i,]))], 2)) 

R> ) 

R> } 

R> } 


R> dim(edgelist sponsors) 


PUTIX MER FRAME, SHOR SRST180000RW, EMEN, EARE 0AM a CIA 180000T MWK. HM 


在 我 们 想 要 把 这 些 数据 转换 为 jgraph 组 件 里 使 用 的 格式 ， 该 组 件 提 供 了 一 组 工具 和 一 些 不 错 的 绘图 辅助 功能 。[j 要 指定 处 理 一 个 无 方向 的 网 
络 ， 相 关 的 命令 是 : 


R> sponsor network <- graph.edgelist (edgelist sponsors, directed = F) 


12.3.1 HAET 


在 转 到 某 个 真实 的 网 络 分 析 案 例 之 前 ， 让 我 们 先 检查 一 下 已 经 采集 的 数据 。 我 们 先 看 一 下 谁 是 最 多 /最 少 进行 提案 /共同 提案 的 。 要 做 到 这 
一 操 ， 我 们 只 要 创建 一 个 两 行 的 和 矩阵， 为 每 个 参议 员 参 与 的 提案 和 共同 提案 进行 计数 束 行 了 。 


R> result <- matrix ( 
NA, 
ncol = ncol(sponsor matrix), 
nrow = 2, 
dimnames = list 人 
c("Sponsor", "Cosponsor"), 
colnames (sponsor matrix) 


) 
R> for(i in 1:ncol(sponsor matrix) ) { 


result[1, i] <- sum(sponsor matrix[, == “@eQsapahsaor.. fia. = E) 


1 
1 


— a | 


result[2, 1] <- sum(sponsor matrix[, == "Sponsor", na.rm = T) 


} 


R> result <- t(result) 


表 12-3 显 示 了 这 个 分 析 的 部 分 结果 。 可 以 看 到 ， 民 主 党 人 (Democrats， 名 字 右 边 括号 里 标记 为 D-XX 的 ) 在 第 111 届 国会 参议 院 里 是 最 活 
跃 的 提案 人 人， 虽然 公平 地 说 ， 因 为 表格 里 包含 了 65 位 民主 党 参议 员 ， 相 比 43 位 共和 党 人 (Republican) 和 2 位 独立 议员 (independent) ， 他 


们 占据 提案 榜首 的 概率 确实 要 稍微 大 一 些 。 上 | 


表 12-3 提案 人 排行 榜 的 前 五 名 和 倒数 五 名 


Brown, Sherrod J71 107 
Gillibrand, Kirstern E. (D-NY) 357 74 
Casey, Robert P., Jr. (D-PA) 333 99 
Goodwin, Carte Patrick l 


该 表 显 示 了 提出 法 案 最 多 和 最 少 的 5 位 参议 员 。 


在 下 一 个 摘 述 性 统计 里 ， 我 们 天 心 的 是 找 出 哪 位 参议 员 和 其 他 人 之 间 有 最 强 的 二 元 连接 天 系 。 最 简单 的 实现 方法 是 把 数据 转化 为 一 个 邻接 
和 矩 阵 ， 里 面 最 大 的 二 元 关系 汇 忆 在 一 个 节点 对 节点 的 表 里 。 我 们 可 以 通过 利用 igraph 组 件 里 的 报表 辅助 功能 来 获取 这 个 表 。 


R> adj sponsor <- get.adjacency(sponsor network) 


目 然 而 然 ， 结 果 算 阵 会 是 一 个 对 称 矩 阵 ， 因 为 这 里 不 存在 有 向 的 关系 。 因 此 ， 我 们 在 计算 最 大 二 元 关系 之 前 ， 可 以 忽略 矩阵 下 方 的 三 角 
形 。 


R> adj sponsor[lower.tri(adj sponsor)] <- 0 


最 后 ， 我 们 要 提取 具有 最 强 二 元 关系 的 二 元 组 。 结 果 如 表 12-4 所 示 。 


R> s10 <- min(sort(as.matrix(adj sponsor), decreasing = T) [1:10]) 


R> max indices <- which(as.matrix(adj sponsor) >= s10, arr.ind = T) 
R> export names <- matrix(NA, ncol = 2, nrow = 10) 

Rs for(i in 1:nrow(max indices) ) { 

R> export names[i, 1] <- rownames(adj sponsor) [max indices [i,1]] 
R> export names[i, 2] <- colnames(adj sponsor) [max indices [i,2]] 
R> } 


相当 明显 的 是 ， 最 活跃 的 提案 人 和 共同 提案 人 会 在 这 张 表 里 有 较 高 的 排名 ， 因 为 他 们 和 任何 其 他 参议 员 之 间 存 在 强 联 系 的 概率 会 更 高 。 
表 12-4 有 具有 最 强 二 元 联系 的 参议 员 


参议 员 1 a 2 


参议 


We 
al 
We 
0 


Nn 


7 Menendez, Robert (D-NJ) Schumer, Charles E. (D-NY) 
8 Brown, Sherrod (D-OH) Stabenow, Debbie (D-MI) 
9 Casey, Robert P., Jr. (D-PA) Specter, Arlen (D-PA) 


10 Schumer, Charles E. (D-NY) Gillibrand, Kirsten E. (D-NY) 


12.3.2 ”网 络 分 析 


让 我 们 先 对 产生 的 网 络 进 行 视 膨 检 查 ， 以 此 来 展开 分 析 过 程 。 作 为 第 一 步 ， 我 们 要 把 多 个 边 变 成 唯一 的 边 ， 把 原 有 边 的 数量 作为 权 值 ， 从 
而 把 该 网 络 进行 简化 。 这 是 通过 使 用 igraph 组 件 的 simplify () 函数 来 完成 的 。 


R> E(sponsor network) Sweight <- 1 

R> sponsor network weighted <- simplify(sponsor network) 
R> sponsor network weighted 

R> head(E(sponsor network weighted) Sweight) 


在 运用 这 个 简化 过 程 之 后 ， 我 们 的 网 络 还 有 超过 5000 个 唯一 性 的 边 ， 比 视觉 上 能 检查 的 还 是 多 多 了 。 因 此 ， 为 了 绘图 ,我 们 只 显示 符合 如 
下 定义 的 筛选 条 件 的 边 : 只 显示 那些 权 值 大 于 平均 权 值 加 上 误差 1 的 边 。 这 个 操作 会 得 到 如 图 12-2 所 示 的 结果 。 


R> plot sponsor <- sponsor network weighted 

R> plot sponsor <- delete.edges(plot sponsor, which(E(plot sponsor) $weight < 
(mean(E(plot sponsor) weight) + sd(E(plot sponsor) $weight) )) ) 

R> plot(plot sponsor, edge.color = "lightgray", vertex.size = 0, ver- 

tex.frame.color = NA, vertex.color = "white", vertex.label.color = "black") 


我 们 可 以 把 图 中 作为 密集 区 块 的 两 个 主要 党 派 清楚 地 区 分 开 。 有 意思 的 是 ， 在 运用 了 权 值 简化 操作 之 后 ， 有 很 多 参议 员 和 图 完全 失去 了 联 
系 。 如 果 再 深入 一 点 细节 ， 束 会 有 一 些 重大 发 现 可 以 证 实 我 们 的 直觉 ， 那 就 是 共同 提案 实际 上 是 议会 内 部 合作 可 行 的 代理 指标 。 看 看 来 自 图 中 
部 缅 因 州 (Maine) 的 Olympia Snowe。 她 被 广泛 看 成 是 参议 院 里 最 温和 的 共和 党 人 之 一 ， 这 个 情况 很 好 地 反映 在 图 中 ， 束 是 她 作为 为 数 不 多 
的 (两 党 之 间 的 ) 桥梁 节操 之 一 。 实 际 上 ， 如 果 考 虑 到 她 和 民主 党 人 有 很 多 强 联 系 ， 而 和 共和 党 人 唯一 的 强 联 系 是 来 目 北 卡罗来纳 州 (North 


Carolina) 的 Richard Burr 参 议员 ， 这 个 发 现 就 更 为 重大 。 她 屡次 被 认为 是 有 可 能 改换 门庭 的 候选 人 之 一 ， 这 在 我 们 的 分 析 里 也 有 清晰 的 视觉 
表达 。 类 似 的 情况 还 可 以 看 看 来 自 路 易 斯 安 那州 (Louisiana) 的 Mary Landrieu。 她 经 常 被 贴 上 民主 党 里 最 保守 的 民主 党 人 的 标签 ， 而 实际 上 
她 在 我 们 的 图 里 也 占据 了 一 个 中 心 位 置 。 
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图 12-2 ”参议 员 的 共同 提案 网 络 





现在 考虑 一 个 真正 的 网 络 指标 一 一 介 数 (betweenness centrality， 或 者 叫 中 介 中 心 度 ) 。 这 个 指标 描述 了 任何 给 定 节 点 在 整体 网 络 中居 
于 多 么 中 心 的 位 置 ， 这 通常 会 作为 在 网 络 中 影响 力 的 指标 。 它 的 定义 是 从 所 有 节点 通过 该 节点 到 达 所 有 其 他 节点 的 最 短路 径 。 分 数 越 高 ， 该 节 
点 在 网 络 里 的 位 置 就 越 中 心 。 表 12-5 提 供 了 根据 介 数 进行 评级 出 最 中 心 的 五 位 人 物 的 概况 。 我 们 发 现在 这 五 位 焦点 人 物 里 ， 有 不 少 于 两 位 在 奥 
巴 马 (Obama) 政府 里 担任 了 部 长 。 


表 12-5 BAKE EAD 


5 议 KR 介 86 
Goodwin, Carte Patrick 2217 
Salazar, Ken 2058 
Clinton, Hillary Rodham (D-NY) 1062 
Kirk, Paul Grattan, Jr. 618 
Coons, Christopher A. (D-DE) 245 


该 表格 显示 居于 最 中 心 位 置 的 五 位 参议 员 ， 基 于 他 们 的 介 数 进行 排名 。 


1] 在 R 里 有 几 个 用 于 网 络 分 析 的 优秀 组 件 。 如 果 你 对 它们 感 兴趣 ， 可 以 查看 netwo 示 k、stathet 和 sna 组 件 。 
[2] 让 事情 复杂 化 的 是 ， 这 些 数字 夸大 了 民主 党 参议 员 脱 颖 而 出 的 简单 概率 ， 因 为 在 第 111 届 国会 期 间 有 一 批 民 主 党 人 离开 了 参议 院 。 值 得 注意 的 


Æ, Robert Bytd 和 Ted Kennedy 死 于 任 上 ， 而 Joe Biden, Hillary Clinton 和 Ken Salazat 因 为 要 在 政府 任职 而 锌 职 。 


124 结论 


议会 政治 的 学 者 最 近 开 始 利 用 大 数据 源 来 探讨 历时 已 久 的 研究 问题 。 其 中 被 审视 的 问题 之 一 就 是 议会 内 部 的 合作 特征 。 利 用 共同 提案 作为 
合作 的 代理 ， 很 多 学 者 已 经 对 这 些 显 性 的 网 络 进行 了 调研 。 本 章 已 经 演示 了 如 何 汇集 必要 的 数据 进行 类 似 于 本 书 所 提出 的 分 析 。 我 们 已 经 展示 
了 可 以 用 于 这 类 分 析 的 数据 是 海量 的 。 在 一 个 参议 院 会 期 内 ， 我 们 惑 能够 采集 超过 100000 个 独立 的 二 元 天 系 。 从 实质 上 说 ， 我 们 还 没有 深入 挖 
掘 这 些 数据 ， 但 是 利用 非常 简单 的 指标 ， 残 能 够 显示 这 些 数据 表现 了 很 强 的 表面 有 效 度 (face validity) 。 首 先 ， 可 以 看 到 两 党 的 温和 派 党 员 在 
网 络 中 占据 了 可 信 的 中 心 位 置 。 其 次 ， 可 以 真 的 看 到 那些 广泛 被 认为 是 议会 内 有 影响 力 的 成 员 也 占据 了 网 络 中 更 中 心 的 位 置 。 


正如 很 多 本 书 中 的 例子 ， 这 里 提出 的 目 动 化 采集 数据 有 明显 的 优势 。 我 们 只 是 对 一 个 参议 院 任期 进行 了 汇集 ， 但 是 产生 的 数据 集 却 是 巨大 
的 。 在 此 之 前 ， 对 特定 主题 感 兴趣 的 个 人 研究 者 从 来 没有 接触 到 这 种 规模 的 数据 集 。 此 外 ， 这 些 数据 不 仅 仪 是 海量 的 ， 而 且 只 要 使 用 了 正确 的 
技术 ， 任 何人 都 可 以 自由 获得 它 。 它 能 够 快速 得 到 更 新 ， 让 结果 反映 当前 发 生 的 事件 。 还 有 最 后 一 点 ， 利 用 自动 化 数据 采集 ， 可 以 避免 在 数据 
里 编码 错误 的 风险 ， 这 种 风险 对 于 手工 编码 如 此 规模 的 数据 集 是 可 以 预料 的 。 我 们 鼓励 你 自己 去 汇集 数据 ， 对 它 随 意 尝 试 一 番 ， 并 调研 在 本 章 
探索 性 的 即兴 论点 ， 对 于 议会 合作 的 特征 提出 新 的 见解 。 


第 13 草 ”从 半 结 构 化 文档 解析 信息 


我 们 已 经 学 习 了 如 何在 类 似 于 XML 或 JSON 这 样 有 清晰 定义 的 数据 结构 里 处 理 和 提取 信息 。 已 经 有 一 些 标准 的 万 法 可 以 把 这 些 格式 转换 为 R 
数据 结构 。 不 过 ， 网 络 上 的 内 容 却 是 高 度 异 构 化 的 。 我 们 偶尔 会 遇 到 一 些 数据 ， 虽 然 它 是 结构 化 的 ,但 它 的 格式 却 没有 现成 的 解析 器 可 以 处 
E 


本 章 要 讲解 如 何 构建 一 个 能 把 纯 字符 数据 转换 为 R 数 据 结 构 的 解析 器 。 我 们 要 以 美国 农业 部 自然 资源 保护 署 (Natural Resources 
Conservation Service) 提供 的 天 气 数据 为 例 。[] 我 们 会 重点 关注 可 以 从 某 个 FTP 服 务 器 下 载 的 一 套 文 本 文件 。 轴 虽然 下 载 程序 很 简单 ， 但 是 文 
件 不 能 直接 放 进 R 的 数据 结构 里 。 这 些 文件 之 一 的 摘录 如 图 13-1 所 示 。 这 里 显示 的 数据 的 构造 方式 是 人 类 可 读 的 ， 却 无 法 被 计算 机 程序 理解 。 我 
们 主要 的 目标 是 以 一 种 计算 机 可 以 处 理 的 方式 描述 这 个 结构 。 


在 案例 分 析 过 程 中 ， 我 们 会 利用 RCurl 来 列 出 FTP 服 务 器 上 的 文件 并 检索 它们 的 内 容 ， 并 依靠 R 的 文本 处 理 能 力 来 构建 一 个 数据 文件 的 解析 
器 。 正 则 表达 式 对 于 完成 这 个 任务 是 至 关 重 要 的 。 


[1] 本 例 是 从 一 个 RCurl 手 册 上 的 短 代 码 片 段 得 到 了 启发 ， 该 段 代 码 演 示 如 何 从 FTP 服 务 器 下 载 数据 (参见 http://cran.at.t- 
ptoject.org/web/packages/RCurl/RCurl.pdf) 。 问 题 是 如 何在 R 里 对 这 类 半 结 构 化 数据 进行 后 续 处 理 。 
[2] 家 水 利和 气候 中 心 (The National Water and Climate Center) 也 提供 了 一 个 基于 SOAP 的 Web 服 务 (参见 


http://www.wec.ntcs.usda.gov/web_service/awdb_web_service_landing. htm) 。 我 们 暂时 忽略 这 个 工具 ， 专 注 于 原始 文本 文件 ， 讲 解 如 何 从 半 结 构 化 


环境 中 提取 信息 。 


13.1 从 FTP 服 务 器 下 载 数据 


首先 ， 我 们 要 加 载 RCurl 和 stringr 组 件 。 正 如 我 们 已 经 了 解 的 ，RCurl 提 供 了 访问 FTP 服 务 器 上 数据 的 功能 (参见 9.1.2 节 ) ， 而 stringr 则 提 
供 了 在 R 里 进行 字符 串 处 理 的 配套 消 数 。 


Rs library (RCur1) 
R> library (stringr) 


我 们 还 要 创建 一 个 名 为 Data 的 文件 来， 用 来 存放 检索 到 的 数据 文件 。 我 们 寻找 的 数据 保存 在 一 人 台 FTP 服 务 器 上 ， 可 以 通过 存放 在 ftp 对 象 里 
的 单个 ur| 来 进行 访问 。 注 意 ， 这 里 给 出 的 只 是 一 个 很 小 的 子 目 录 ， 服 务 器 提供 了 海量 的 气候 数据 。 


R> dir.create ("Data") 
R> ftp <- "ftp://ftp.wcc.nrcs.usda.gov/data/climate/table/ 
temperature/history/california/" 


在 RCurl 的 getURL () 函数 里 把 dirlistonly 选 项 设置 为 TRUE， 就 可 以 让 FTP 服 务 器 返回 文件 的 清单 而 不 是 下 载 一 个 文件 。 


R> filelist <- getURL(ftp, dirlistonly = TRUE) 


这 融 是 返回 的 文件 清单 : 


R> str sub(filelist, 1, 119) 
[1] "19103s tavg.txt\r\n19103s tmax.txt\r\n19103s tmin.txt\r\n19105s_ 
tavg.txt\r\n19105s tmax.txt\r\n19105s tmin.txt\r\n19106s tavg.txt\r\n" 


为 了 识别 文件 名 ,我 们 以 回 车 符 (\r) 和 换行 符 An) 来 拆 分 文本 ， 并 只 保留 那些 非 空 的 向 量 元 素 。 


R> filelist <- unlist(str_split(filelist, Then) ) 

R> filelist <- filelist[!filelist == ""] 

Rs. filelist[1:3] 

[ti "281048 EHR TISTA Piet: Tee” “TS Loss. BI EE, 


在 FTP 接 口上 对 文件 进行 的 比较 表明 ， 我 们 对 文件 名 的 识别 是 成 功 的 。 因 为 我 们 目前 对 最 低 或 最 高 气温 不 感 兴趣 ， 所 以 使 用 str_detect () 
只 保留 文件 名 里 谷 有 tavg 的 文件 (有关 平均 气温 的 数据 ) 。 


R> filesavg <- str detect (filelist, "tavg") 

R> filesavg <- filelist [filesavg] 

R> filesavg[1:3] 

[1] "19103s tavg.txt" "19105s tavg.txt" "19106s tavg.txt" 


要 下 载 这 些 文件 ， 我 们 必须 构建 指向 它们 在 服务 器 所 处 位 置 的 完整 URL。 我 们 把 基准 URL 和 创建 的 文件 名 向 量 串 接 起 来 ， 就 重新 组 织 好 完整 
的 URL。 


R> urlsavg <- str_c(ftp, filesavg) 

R> length (urlsavg) 

it] a2 

R> urlsavg[1] 

[1] "ftp://ftp.wcee.nrces.usda.gov/data/climate/table/temperature/ 
history/california/19103s tavg.txt" 


给 32 个 文件 构建 好 URL 之 后 ， 现 在 我 们 可 以 对 每 个 URL 进 行 循 环 并 把 文本 文件 保存 到 本 地 文件 夹 里 。 我 们 利用 file.exists () 函数 对 文件 是 
否 已 经 下 载 过 进行 检查 ， 并 在 每 次 服务 器 请 求 之 后 暂停 1 秒 。 文 件 本 身 是 利用 download.file () 下 载 的 ， 并 保存 在 Data 文 件 夹 里 。 


R> for (i in seq along(urlsavg)) { 
fname <- str ecl“Data/*, filesavg [i] ) 
if (!file.exists(fname)) { 
download.file(urlsavg[i], fname) 
Sys.sleep (1) 


对 本 地 文件 夹 的 简略 查看 表明 ， 我 们 成 功 地 下 载 了 所 有 32 个 文件 。 


R> length(list.files("Data") ) 

[1] 32 

R> list.files ("Data") [1:3] 

bli ST9L03s lavyg txt” IqIOSS Evo EXC" ”19406B tava. Exc” 


13.2 解析 半 结 构 化 文本 数据 


既然 我 们 已 经 下 载 了 需要 的 所 有 文件 ， 束 来 看 一 下 它们 的 内 容 。 表 回顾 一 下 图 13-1， 它 提供 了 一 个 文件 内 容 的 例子 。 因 为 它们 相当 长 ， 即 
超过 了 1000 行 ， 所 以 这 里 只 是 呈现 了 一 份 小 的 样 例 。 


/cdbs/ca/snot06 88 Average Air Temperature 


Station : CA19L03S, HAGAN'S MEADOW 
Unit = degrees C 


jan 


-14 


-0 
6 
-6 


/cdbs/ca/snot0O6é 89 Average Air Temperature 


Station : CA19L03S, HAGAN'S MEADOW 
Unit = degrees C 


jan feb mar 





图 13-1 来 自 加 州 气象 站 的 关于 气温 数据 的 文本 文件 节选 
来 源 : ftp: //ftp-wec.nrcs.usda.gov/data/climate/table/temperature /history /california/ 


每 个 文件 都 提供 了 自 1987 年 到 2013 年 在 加 州 的 一 个 气象 站 的 每 日 气温 数据 。 我 们 从 样 例 看 到 ， 每 一 年 都 有 一 个 以 ---------- 结尾 的 分 隅 区 
段 。 第 一 行 告诉 我 们 有 关 数 据 源 的 一 些 信息 (/cdbs/ca/snot06) ,后面 是 用 两 位 数字 表示 的 年 份 (88) 和 呈现 的 数据 类 型 (Average Air 
Temperature， 平 均 空气 温度 ) 。 下 面 一 行 标明 了 观测 气温 的 气象 站 (Station: CA19L03S, HAGAN’ S MEADOW) ， 后 面 一 行 表 示 观 测 数 


据 的 单位 (Unit=degrees C) 。 


在 标题 区 段 之 后 就 是 呈现 在 表格 里 的 实际 数据 了 ， 里 面 的 列 代表 月 份 ， 而 行 代表 日 期 。 如 果 某 个 月 里 没有 某 一 天 ， 如 11 月 31 日 ， 那 么 在 对 
应 的 单元 格 里 找到 的 就 是 三 个 连接 号 : ---。 在 每 日 气温 下 面 ， 我 们 还 看 到 了 月 度数 据 的 区 段 ， 提 供 了 每 月 的 平均 、 最 高 、 最 低 气 温 。 如 果 这 里 
面 只 提供 了 气温 数据 表 ， 而 我 们 感 兴趣 的 信息 也 正好 是 它 ， 那 么 我 们 的 任务 束 简 单 了 ， 因 为 R 束 可 以 处 理 以 固定 宽度 格式 组 织 的 表格 : 
read.fwf () 可 以 读 取 这 类 数据 并 自动 把 它们 转换 为 数据 框 。 问 题 在 于 ， 我 们 不 能 丢掉 标题 区 段 的 信息 ， 因 为 它 会 告诉 我 们 这 些 气温 数据 属于 
哪 一 年 和 哪 一 个 气象 站 。 

当 我 们 进行 分 析 的 时 候 ， 要 重点 思考 哪些 信息 是 必须 提取 的 ， 以 及 最 后 数据 的 格式 。 最 终结 果 应 该 是 一 个 长 表格 ,里面 有 每 日 气温 ， 以 及 
一 些 关 于 记录 气温 的 日 期 、 月 份 和 年 的 变量 ， 还 有 气象 站 的 id 及 名 字 等 。 确 定 的 数据 结构 应 该 类 似 于 表 13-1 所 描述 的 形式 。 


表 13-1 解析 后 期 望 的 数据 结构 


气象 站 名 


XYZ001784 Deepwood 
XYZ001784 Deepwood 


XYZ001786 Highwood 


XYZ001786 Highwood 


XYZ001800 — 
NT Northwood 


由 于 信息 是 分 散在 区 段 里 的 ， 所 以 我 们 首先 要 拆 分 文本 ， 把 它们 转化 为 单独 的 向 量 。 要 做 到 这 一 点 ， 我 们 要 先 通 过 readLines () 读 取 所 有 
文本 文件 ， 并 将 获得 的 各 行文 本 输入 到 一 个 向 量 中 。 


U3 
pà 

La U3 一 上 -一 — p 
~ 
\ -一 
O 
Co 

t t da 、 


R> txt <- character() 
R> for (i in 1:length(filesavg)) { 
txt <- c(txt, readLines(str_c("Data/", filesavg[i]))) 


在 下 一 步 ， 我 们 把 整个 向 量 折 革 为 一 行 ， 在 里 面 用 换行 符 (\n) 标记 原来 每 行 的 结束 位 置 。 然 后 把 这 一 行 在 每 个 ---------- \n 的 出 现 位 置 
(也 就 是 每 个 区 段 的 结尾 ) 进行 拆 分 。 


R> txt <- str c(txt, collapse = "\n") 
R= Exiparte <= unlist(atr splib (Faby = \n") ) 


在 这 样 产生 的 向 量 里 ， 每 行 包含 了 一 个 区 段 。 


Rs str_sub(txtparts[28:30], 1, 134) 

[1] "\n***This data is provisional and subject to change. \n/cdbs/ca/snot06 
84 Average Air Temperature\n\nStation : CA19L05S, BLUE LAKES\n----" 

[2] "/cdbs/ca/snot06 85 Average Air Temperature\n\nStation : CA19L05S, 


BLUE LAKES \n ------- Unit = degrees c\n\nday oct nov dec jan = 
[3] "/cdbs/ca/snot06 86 Average Air Temperature\n\nStation : CA19L05S, 
BLUE LAKES\n------- Unit = degrees c\n\nday oct nov dec Jan n 


在 文本 编辑 器 里 ， 它 看 起 来 如 下 所 示 : 


R> cat (str sub(txtparts[28], 1, 604)) 


***This data is provisional and subject to change. 
/cdbs/ca/snot0O6 84 Average Air Temperature 


Station : CA19L05S, BLUE LAKES 
------- Unit = degrees C 


day oct nov dec jan feb mar apr may jun jul aug sep 


L 1 2 = -4 a | a: a =L 12 i Op. 8 
A 3 I! aiai =6 -4 0 E ae 7 14 LE 9 
£. 3 2 a = S = -4 0 6 16 LE cm 
4 = =" = =a. -4 -4 =a 3 6 a7 11 12 
5 8 Ss ae -0 -4 =o a ag 2 17 j La 


现在 我 们 需要 进行 一 些 清理 工作 ， 去 掉 那 些 “the data are provisional” (数据 是 临时 性 的 ) 声明 并 删除 向 量 里 所 有 的 空 行 。 


R> txtparts <- str replace(txtparts,"\n\\*\\*\\*This data is 


provisional and subject to change.", "") 
R> txtparts <- str replace(txtparts,"*\n", "") 
R> txtparts <- txtparts[txtparts!=""] 


在 把 每 个 区 块 放 到 单独 的 行 之 后 ， 现 在 我 们 就 可 以 创建 能 运用 到 每 一 行 来 提取 信息 的 函数 ， 因 为 每 行 包含 了 类 型 和 结构 都 完全 相同 的 信 
息 。 我 们 先 提取 测量 气温 的 年 份 。 为 此 ， 我 们 创建 了 正则 表达 式 "[[: digit: ]]{2}Average Air Temperature"， 碍 找 的 是 一 个 这 样 的 字符 序列 : 
以 2 个 数字 起 始 ， 后 面 是 2 个 空格 ， 接 着 是 “Average Air Temperature”。 然 后 从 这 个 子 字符 串 提取 数字 并 在 第 3 步 把 2 位 数字 扩充 为 4 位 数字 的 
年 份 。 


R> year <- str extract (txtparts, "[[:digit:]]{2} Average Air Temperature") 
R> year[1:4] 

[1] "87 Average Air Temperature" "88 Average Air Temperature" 

[3] "89 Average Air Temperature" "90 Average Air Temperature" 


R> year <- str extract (year, "[[:digit:]]{2}") 
R> year <- ifelse(year < 20, str c(20, year), str c(19, year)) 
R> year <- as.numeric (year) 
R> year[5:15] 
[1] 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 


我 们 还 要 采集 气象 站 的 名 字 以 及 它 的 id。 为 此 ， 我们 要 先 提取 气象 站 信息 存放 的 行 。 


R> station <- str extract (txtparts, "Station : .+?\n") 
R> station[1:2] 

[1] "Station : CA19L03S, HAGAN'S MEADOW\n" 

[2] "Station : CA19L03S, HAGAN'S MEADOW\n" 


可 以 删除 我 们 不 感 兴趣 的 那些 部 分 ， 如 station : 和 \n。 
R> station <- str_replace all(station, "(Station : | Ca. =m) 


R> station[1:2] 
[1] "CA19L03S, HAGAN'S MEADOW" "CA19L03S, HAGAN'S MEADOW" 


并 把 剩余 文本 拆 分 为 两 部 分 ， 一 部 分 合 有 id， 一 部 分 包含 气象 站 的 名 字 。 


R> station <- str split(station, ", ") 
R> station [1] E 
[{1]] 
[1] "CA19L03S" "HAGAN'S MEADOW" 

文本 的 拆 分 产生 了 一 个 列表 ， 里 面 的 每 个 元 素 都 包含 了 两 个 字符 串 。 每 个 列表 元 素 里 的 第 一 个 字符 串 是 id， 而 第 二 个 包含 了 站 名 。 要 从 每 
个 列表 元 素 里 提取 第 一 个 和 第 二 个 字符 串 ， 我 们 可 以 把 [操作 符 运用 到 每 个 元 素 上 。 


R> id <- sapply(station, "[", 1) 

R> name <- sapply(station, "[", 2) 
R> id[1:3] 

[1] "CA19L03S" "CA19L03S" "CA19L03S" 


R> name[1:3] 


[1] "HAGAN'S MEADOW" "HAGAN'S MEADOW" "HAGAN'S MEADOW" 


现在 我 们 可 以 把 注意 力 转 到 提取 每 日 气温 上 了 。 气 温 数 据 构成 了 一 个 固定 宽度 格式 的 表格 ， 可 以 通过 read.fwf () 进行 读 取 和 转换 。 在 固 
定 宽度 的 格式 里 ， 一 列 里 的 每 个 条 目 具 有 相同 的 字符 宽度 ， 而 行 与 行 的 分 拆 是 按照 换行 符 或 回 后 符 或 两 者 的 组 合 来 进行 的 。 我 们 必须 做 的 事情 
是 提取 每 个 区 段 里 构成 固定 宽度 表格 的 部 分 ， 并 对 它 运用 read.fwf () 。 我 们 的 第 一 个 任务 是 提取 包含 了 气温 表 的 部 分 。 为 此 ， 我 们 利用 一 个 
提取 day 及 其 后 面 所 有 内 容 的 正则 表达 式 。 


R> temperatures <- str_extract(txtparts, "day.*") 


下 一 步 ， 我 们 要 把 后 续 步 又 编写 成 一 个 能 运用 到 每 个 临时 表格 的 负数 ， 不 过 目前 我 们 要 利用 一 个 气温 表 来 把 所 有 必要 步骤 都 过 一 迄 ， 用 来 
确定 所 有 的 中 间 步 又 。 
由 于 read.fwf () 需要 一 个 文件 名 作为 输入 ， 所 以 我 们 必须 先 用 tempfile () 函数 把 气温 表 写 到 一 个 临时 文件 里 。 


R> tf <- tempfile() 


R> writeLines (temperatures [5], tf) 


然后 我 们 束 可 以 使 用 read.fwf () 把 内 容 读 回来 了 。width 选 项 会 告诉 函数 列 宽 占 的 字符 个 数 。 


R> temptable <- read.fwf (tf, width=c(3, 7, rep(6, 11)), stringsAsFactors 
= F) 
R> temptable[c(1:5,32:38), 1:10] 

WL V2 V3 V4 V5 V6 V7 V8 V9 V10 
1 day oct nov dec jan feb mar apr may jun 
2 证 ER EEEN ee ES Eee CIGLE TA 
3 1 10 1 -3 -6 -2 0 2 2 7 
4 2 9 -4 -7 -6 1 -3 -0 -4 6 
= 3 8 -5 -5 -5 1 -3 -1 -2 6 
ce 30 = -2 -13 -4 --- -2 3 7 7 
33 31 5 --- -9 -3 --- 0 --- 7 --- 
34 <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> 
35 mea 6 -1 -7 -4 0 -5 -1 2 6 
36 max 10 7 5 1 3 1 6 8 7 
37 min -0 -10 -22 -9 -2 -10 -6 -4 6 
38 <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> <NA> 


数据 里 有 好 几 行 不 包含 我 们 需要 的 数据 。 因 此 ， 我 们 只 保留 3~33 行 ， 


并 去 挥 第 一 列 。 


R> temptable <- temptable[3:33, -1] 


在 下 一 步 ， 我 们 把 该 表格 转换 为 一 个 向 量 。 利 用 as.numeric () 和 unlist () ， 所 有 数字 都 会 被 转换 为 数字 类 型 ， 而 所 有 只 包含 了 空格 或 -- 
-的 单元 格 都 会 农 设置 为 NA。 


R> temptable <- as.numeric(unlist (temptable) ) 


去 掉 了 表 结 构 ， 只 保留 了 气温 数据 ， 现 在 我 们 必须 重 构 和 气温 相关 的 日 期 和 月 份 。 幸 运 的 是 ，unlist () 总 是 以 相同 的 方式 对 数据 框 进行 分 
解 。 它 从 所 有 行 的 第 一 列 开始 ， 依 次 逐 列 地 把 值 添加 进来 。 正 如 我 们 所 知 ， 在 气温 表 里 ， 行 代表 日 期 ， 列 代表 月 份 ， 我 们 就 可 以 简单 地 把 日 期 
序列 1~31 GRA) 重复 12 次 获得 正确 的 日 期 。 类 似 地 ， 我 们 必须 把 每 个 月 重复 31 次 。 注 意 ， 月 份 的 顺序 和 常规 的 1~12 不 同 ， 因 为 表格 里 的 月 
份 是 从 10 月 开始 的 。 


R> day <- rep(1:31, 12) 
R> month <- rep(c(10:12, 1:9), each = 31) 


现在 我 们 可 以 把 有 关 测 量 气温 的 年 份 和 气象 站 的 信息 和 和 气温 数据 组 合 起 来 ， 并 获取 一 年 的 数据 。 


R> temptable <- data.frame(avgtemp = temptable, day = day, month = 
month, year = year[5], name = name[5], id = id[5]) 


R> head(temptable, 3) 


avgtemp day month year name id 
1 10 1 10 1991 HAGAN'S MEADOW CA19L03S 
2 9 2 10 1991 HAGAN'S MEADOW CA19L03S 
3 8 3 10 1991 HAGAN'S MEADOW CA19L03S 


要 获取 所 有 数据 ， 我 们 必须 对 所 有 文件 重复 上 述 程序 。 为 了 方便 起 见 ， 我 们 构建 了 一 个 解析 尔 数 ， 它 接受 一 个 文件 名 作为 参数 ， 并 返回 一 
个 现成 的 数据 框 。 代 码 清单 如 图 13-2 所 示 。 运 用 该 函数 可 以 得 到 : 


ss Á es 
t= 


— 


46 


parseTemp <- function(filename) 
# get text 


H 


| 


txt <- paste( readLines (filename), collapse="\n") 
split text into year tables 

txtparts <- unlist (str split(txt, "----------\n")) 
cleansing 

txtparts <- str replace(txtparts, 

"\n\\*\\*\\*This data is provisional and subject to change.", "") 
txtparts <- str replace (txtparts,"*\n","") 

txtparts <- txtparts (txtparts!="") 
get the year 


year <- str extract (txtparts,"[[:digit:]]{2} Average Air Temperature") 


year <- str extract (year,"[[:digit:]]{2}") 

year <- ifelse(year < 20, str_c(20,year), str_c(19, year) | 
year <- as.numeric (year) 
get station and name 


station <- str extract(txtparts, "Station : .+?\n") 

station <- str replace all(station, "(Station : ) tay ", ny 
station <- ptr aplit(station,", ") 

id <- sapply(station, '[', 1) 

name <- sapply(station, '[', 2) 


extract part of the sections that contains daily temperatures 
temperatures <- str extract (txtparts, "day.*") 

prepare object to store temperature data 

tempData z- data.frame(avgtemp = NA, day = NA, month = NA, 


year = NA, id = "", name = "") 
generate day and month patterns matching the order of temperatures 
day €- rep(1:31, 12) 
month e- repi ¢(10:12,1:39), each=31 } 


helper function 
doTemp <- function (temperatures, year, name, id) { 
write fixed width table into temporary file 
tf <- tempfile() 
writeLines (temperatures, tf) 
read in data and transform to data frame 
temptable <- read. fwf (tf, width = ¢c({3,7,6,6,6,6,6,6,6,6,6,6,6), 
stringsAsFactors = F) 
keep only those lines and rows entailing day-temperatures 
temptable <- temptable[3:33, -1] 
transform data frame of strings to vector of type numeric 
temptable <- suppressWarnings (as.numeric (unlist (temptable) ) ) 
combine data 
temptable <- data. frame (avqtemp = temptable, day = day, 
month = month, year = year, name = name, id = id) 
add data to tempData 
tempData <<- rbind(tempData, temptable) 


mapply (doTemp, temperatures, year, name, id) 


t 


empData <- tempData[!is.na(tempDataSavgtemp) ,] 


return (tempData) 


图 13-2 ”基于 及 的 气温 文本 文件 解析 函数 


R> tempDatal <- parseTemp(str_c("Data/", filesavg[1]) ) 


R> dim(tempDatal) 
[1] 9551 6 
R> tempDatal[500:502, ] 

avgtemp day month year id name 
774 6 29 10 1989 CA19L03S HAGAN'S MEADOW 
TIS 6 30 10 1989 CA19L03S HAGAN'S MEADOW 
776 4 31 10 1989 CA19L03S HAGAN'S MEADOW 


这 看 起 来 像 是 个 成 功 的 解析 结果 。 此 外 ， 为 了 便于 一 次 融 能 解析 所 有 文件 ， 我 们 可 以 创建 一 个 包 妆 函数 ， 接 受 一 个 文件 名 的 向 量 作为 参 
数 ， 返 回 一 个 组 合 的 数据 框 。 


R> parseTemps <- function(filenames) { 
tmp <- lapply(filenames, parseTemp) 
tempData <- NULL 
for (i in seq along(tmp)) tempData <- rbind(tempData, tmp[[1i]]) 
return (tempData) 


最 后 ， 我 们 把 该 包 委 阔 数 运用 到 文件 夹 里 的 所 有 文件 上 。 


R> tempData <- parseTemps(str_c("Data/", filesavg) ) 


R> dim(tempData) 
[1] 252463 6 


13.3 JES Rubee 


Fx] FAX STAB PAIX MAR. Bt, BENE Ree. PICA CTAB, A 
过 想 对 它们 了 解 得 更 具体 一 些 。 对 该 FTP 服 务 器 进行 一 冀 浏 览 后 ， 我 们 上 友 现 有 一 个 文件 包含 了 有 关 气 象 站 的 数据 : 站 名 、 经 纬度 表示 的 位 置 以 及 
海拔 。 我 们 可 以 通过 read.csv () 下 载 并 读 取 该 文件 。 


R> download.file("ftp://ftp.wcc.nrcs.usda.gov/states/ca/jchen/CA _ 
sites.dat", "Data CA/CA sites.dat") 


R> stationData <- read.csv("Data_CA/CA sites.dat", header = F, sep = 
| 
R> names(stationData) <- c("name","lat","lon","alt") 


R> head(stationData, 2) 

name lat lon alt 
1 ADIN MTN 4115 12046 6200 
2 BLUE LAKES 3836 11955 8000 


因为 将 要 用 到 的 地 图 的 关系， 我 们 必须 重新 调整 这 些 坐 标 。 首 先 给 所 有 经 度 乘 以 -1 以 得 到 通用 经 度 ， 再 给 折 有 坐标 除 以 100。 海 拔 是 用 英尺 
作为 单位 的 ， 所 以 我 们 要 把 它们 转换 为 米 。 


R> stationDataSlon <- stationDataSlon * -1 
Rs stationData[, c("lat", "lon")] w= stationData[, c("lat", "lon")]/100 
R> stationDataSalt <- stationDataSalt/3.2808399 
R> stationData <- stationData[lorder(stationDataSlat), | 
R> head(stationData, 2) 
name lat lon alt 


25 VIRGINIA LAKES RIDGE 38.05 -119.2 2804 
14 LEAVITT LAKE 38.16 -119.4 2865 


现在 ， 我 们 把 这 些 气象 站 的 位 置 在 一 个 地 图 上 画 出 来 。 在 R 里 ， 有 几 个 适合 绘制 地 图 的 组 件 (参见 第 15 章 ) 。 我 们 选择 了 RgoogleMaps， 
因此 可 以 利用 Google 和 OpenstreetMap 提 供 的 服务 ， 下 载 可 以 用 于 绘图 的 地 图 。 我 们 要 利用 GetMap.OSM () 函数 从 Open Street Maps 下 
载 地 图 数据 。 利 用 这 个 函数 ， 我 们 定义 一 个 坐标 的 边界 框 (bounding box) 和 一 个 缩放 比例 因子 。 地 图 数据 存放 在 硬盘 上 一 个 PNG 格 式 的 
map.png 文 件 里 ， 以 及 一 个 名 为 map 的 R 对 象 里 ， 以 备 后 续 使 用 。 


R> map <- GetMap.OSM(latR = c(37.5, 42), lonR = c(-125, -115), scale = 
5000000, destfile = "map.png", GRAYSCALE = TRUE, NEWMAP = TRUE) 


现在 我 们 可 以 利用 PlotOnstaticMap () 在 之 前 下 载 的 地 图 上 绘制 气象 站 的 位 置 。 结 果 如 图 13-3 所 示 。 


R> png("stationmap.png", width = dim(readPNG("map.png")) [2], height = 
dim(readPNG("map.png") ) [1] ) 


R> PlotOnStaticMap(map, lat = stationDataSlat, lon = stationDataS$lon, 
Cex = 2, pen. = 19, col. = rapid, 0, 6, 0:5), ada = FALSE) 


Sorta Ross 





Marteca 


图 13-3 ”在 OpenStteetMaps 地 图 上 和 气象 站 的 位 置 


最 后 ， 我 们 要 把 气温 数据 视觉 化 。 让 我 们 查看 一 下 27 个 气象 站 中 6 个 的 每 月 平均 气温 。 首 先 ， 利 用 aggregate () 国 数 对 每 个 月 和 每 个 气象 


站 的 气温 进行 汇 忌 。 


R> monthlyTemp <- aggregate(x = tempDataSavgtemp, by = list(name = 
tempDataSname, month = tempDataSmonth), FUN = mean) 


我 们 选择 的 气象 站 是 所 有 其 他 气象 站 的 代表 ， 即 各 选择 了 3 个 位 于 平均 纬度 北部 和 3 个 位 于 平均 纬度 南部 的 气象 站 。 此 外 ， 在 两 组 气象 站 
中 ，3 个 气象 站 的 海拔 也 应 该 有 所 不 同 ， 而 且 两 组 当中 气象 站 的 海拔 必须 大 致 上 能 一 一 匹配 。 查 阅 候选 气象 站 后 ， 我 们 找到 如 下 的 气象 站 是 适合 
的 ， 并 提取 出 它们 的 坐标 和 海拔 : 


R> stationNames <- c("ADIN MTN", "INDEPENDENCE CAMP", "SQUAW VALLEY 
G.C.", "SPRATT CREEK", "LEAVITT MEADOWS","POISON FLAT") 


R> stationAlt <- stationDatal[match(stationNames, stationDataSname), ]Salt 
R> stationLat <- stationDatal[match(stationNames, stationDataSname), ]Slat 
R> stationLon <- stationData[match(stationNames, stationDataSname), ]$lon 


然后 ， 我 们 要 编写 一 个 用 在 所 有 的 绘制 工作 中 的 绘图 消 数 。 该 阅 数 曾 先 定义 了 一 个 名 为 iffer 的 对 象 ， 它 用 来 选取 那些 只 属于 要 绘制 的 气 
站 的 月 度 气 温 数据 。 绘 制 每 个 气象 站 和 每 个 月 的 整体 平均 数 时 ， 会 市 有 相应 的 标题 和 坐标 轴 标 等 。 我 们 增加 了 一 个 水 平 线 ， 用 来 标记 0"C。 为 了 
获得 气温 指标 随时 间 变 化 的 情况 ， 我 们 在 最 后 一 步 增加 了 作为 小 灰 点 的 实际 气温 指标 。 


R> plotTemps <- function(i) { 


R> iffer <- monthlyTempSname == stationNames [i] 

R> plot (monthlyTemp[iffer, c("month", "x")], 

R> type = "b", main = str _c(stationNames [i], 

R> "(T rong (StationaAlte i, “mj; | Lakas ™, 

R> stationLat[i], " Lon.= ", stationLon[i]), 

R> ylim = c(-15, 25), ylab = "average temperature") 
R> abline(h = 0,lty = 2) 

R> iffer2 <- tempDataSname == stationNames [i] 

R> points (tempDataSmonth[iffer2] + tempDataSday[iffer2] *0.032, 
R> jitter (tempDataSavgtemp[iffer2], 3), 

R> Sa). DUO Ou.2, Gedy OU); Bena mw) 

R>} 


定义 完 绘图 函数 之 后 ， 我 们 对 选 定 的 气象 站 进行 循环 。 


R> par(mfrow = c(2, 3)) 
R> for (i in seq along(stationNames)) plotTemps (i) 


13-4 SFA a. SRE S, SRE b, Aimee. 


ADIN MTN (1890m) INDEPENDENCE CAMP (2134m) SQUAW VALLEY G.C. (2499m) 
Lat.= 41.15 Lon.= -120.46 Lat.= 39.27 Lon.= -120.17 Lat.= 39.11 Lon.= -120.15 





SPRATT CREEK (1890m) LEAVITT MEADOWS (2195m) POISON FLAT (2408m) 
Lat.= 38.4 Lon.= -119.49 Lat.= 38.2 Lon.= -119.33 Lat.= 38.3 Lon.= -119.38 





第 14 章 ”利用 Twitter 预测 2014 年 奥斯卡 奖 


社交 媒体 和 社交 网 络 ， 具 体 说 就 是 Twitter， 已 经 吸引 了 各 专业 科学 家 的 好 奇 心 。 数 以 自 万 计 的 人 们 定期 通过 故 推 文 与 世界 进行 交流 ， 这 一 
现实 状况 能 提供 关于 人 们 的 感受 、 态 度 以 及 行为 的 宝贵 信息 。 对 于 这 一 海量 的 公共 通信 信息 有 一 种 越 来 越 流行 的 利用 方法 ， 就 是 用 它 创 建 对 各 
种 类 型 的 重大 事件 的 预测 。Twitter 数 据 被 用 作 预 测 工具 的 领域 包括 选举 (Tumasjan et al.2011) 、 流 感 茄 延 情 况 (Broniatowski et al.2013; 
Culotta 2010) 、 电 影 票房 (Asur and Huberman 2010) 或 证 券 市 场 (Bollen et al.2011) 。 


在 这 些 方法 背后 的 思路 是 “群众 智慧 ”效应 。 有 历史 表明 ， 很 多 人 的 集体 判断 往往 比 专家 或 一 组 预测 者 里 最 聪明 的 人 的 判断 还 要 更 准确 
(Hogarth 1978) 。 在 这 种 意义 上 ， 如 果 有 可 能 根据 人 们 友 的 推 文 (tweet) 进行 预测 的 推断 ， 我 们 也 许可 以 对 某 个 事件 的 结果 产生 相当 准确 
的 预测 。 


在 这 个 案例 研究 中 ， 我 们 尝试 利用 和 颁奖 前 一 天 的 推 文 来 预测 2014 奥 斯 卡 奖 的 获得 者 。 具 体 说 ,我 们 尝试 预测 三 个 奖项 的 结果 ， 即 最 佳 影 
片 、 最 佳 女 演员 和 最 佳 男 演员 。Ghomi etal. (2013) 提出 了 和 我 们 相似 的 研究 思路 。 在 14.1 节 ， 我 们 要 通过 介绍 Twitter API 和 用 于 采集 推 广 
的 具体 设置 ， 详 细 地 讲解 数据 采集 过 程 。14.2 市 会 接着 讲解 数据 预 处 理 及 预测 。 


14.1 Twitter API 概 六 


在 转 到 基于 Twitter 的 预测 之 前 ， 我 们 先 给 出 一 个 Twitter API 基 本 特性 的 概述 。[1JTwitter API 特 性 的 范围 很 广 ， 而 我 们 只 会 利用 其 中 很 小 
的 一 部 分 ， 所 以 获得 Twitter 可 用 的 Web 服 务 的 直观 印象 还 是 有 用 的 。Twitter 给 开发 者 提供 了 各 种 各 样 的 API。 它 们 
在 https://dev.twitter.com/docs 有 相应 的 技术 文档 。 使 用 它 的 API 要 求 通过 OAuth (参见 9.1.11 节 ) 进行 身份 验证 。 下 面 ， 我 们 简短 地 讨论 它 
的 REST API 和 | 数据 流 APl。 


14.1.1 REST API 


Twitter 的 REST APl 包 含 了 一 组 丰富 的 资源 。[ 包 它们 提供 了 对 用 户 账号 、 时 间 线 、 私 信 、 朋 友 以 及 粉丝 的 访问 。 用 它 还 可 以 检索 具体 地 点 
(WOEID; 参见 9.1.10 节 ) 的 热门 话题 ， 或 采集 匹配 特定 过 滤 参数 (如 关键 字 ) 的 推 文 。 不 过 要 注意 ， 对 状态 进行 回顾 式 的 采集 是 有 限制 的 。 
还 有 一 些 关 于 抓 取 速 度 的 限制 也 要 牢记 在 心 。 由 于 这 两 种 限制 都 有 可 能 修改 ， 所 以 我 们 可 以 参考 在 https://dev.twitter.com/docs/rate- 
limiting/1.1 网 页 上 的 文档 获取 有 关 的 细节 信息 。 


twitteR 组 件 提供 了 一 个 REST API 的 包装 函数 (Gentry 2013) ， 这 样 ， 我 们 不 必 目 己 指定 GET 和 POST 请 求 ， 残 可 以 连接 到 Twitter 的 Web 
服务 。 该 组 件 还 提供 了 把 获取 的 JSON 数 据 转换 为 普通 R 数 据 结构 的 功能 。 我 们 在 表 14-1 里 列举 了 我 们 觉得 最 有 用 的 该 组 件 的 部 分 水 数 。 要 更 详 
细 了 解 该 组 件 的 描述 ， 可 以 到 http://geoffjentry.hexdump.org/twitteR.pdf 查 看 Jeff Gentry 编 写 的 有 帮助 的 介绍 。 


表 14-1 twitteR 组 件 里 部 分 函数 的 概况 


gh BB 示 fil 
查找 匹配 特定 查询 条 件 的 推 文 ; 查询 条 件 必须 | 
searchTwitter ("#superbowl1") 


searchTwitter O | 是 URL 编码 的 ， 并 可 以 使 用 特殊 查询 操作 符 人 


KEK FT AA ZF ia aT YY Twitter 用 户 (或 API 


getUser () getUser ("RDataCollection") 


用 户 ) 的 信息 
根据 某 个 WOEID 定义 的 地 点 ， 提 有 取 相关 的 热门 





getTrends () = getTrends (2422673) 
Ww re 
twListToDF () 把 twitteR 类 对 象 的 列表 转换 为 数据 框 twListToDF (tweets) 


DA Whttps://dev.twitter.com/docs/using-search 


14.1.2 ŽGRMAPI 


另 一 套 Twitter API 被 包含 在 数据 流 API 这 个 标签 之 下 。 它 们 支持 对 Twitter 的 全 局 数据 流 进行 低 延 迟 访问 ， 也 就 是 说 ， 从 实际 效果 看 是 接近 
实时 的 。B 相 比 REST AP1， 数 据 流 API 需 要 一 个 HTTP 持 久 连 接 。 只 要 该 连接 处 于 保持 状态 ， 利 用 该 API 的 应 用 就 能 从 其 中 一 个 数据 流 里 传输 数 
据 了 。 

这 样 的 数据 流 有 好 几 种 。 首 先是 公众 数据 流 (Public Stream) ， 它 提供 了 公众 数据 流 的 抽样 。Twitter 会 提供 大 约 1% 的 抽样 推 文 给 这 个 
API 的 普通 有 用户。 抽样 推 文 可 以 通过 特定 的 属性 来 进行 过 滤 ， 比 如 ， 通 过 用 户 ID、 关 键 字 或 者 位 置 。 对 于 数据 挖掘 的 用 途 来 说 ， 这 一 类 的 数据 流 
会 是 最 有 意思 的 资源 之 一 ， 因 为 它 提供 了 能 通过 很 多 条 件 搜 索 Twitter 内 容 的 工具 。 在 这 个 案例 分 析 中 ， 我 们 会 利用 这 个 API 通 过 过 滤 一 组 关键 
字 来 识别 那些 提 到 了 2014 奥 斯 卡 奖 的 推 文 。 第 二 种 数据 流 API 提 供 了 对 用 户 数据 流 (User Streams) 的 访问 。 这 种 API 返 回 的 是 来 自用 户 时 间 线 
的 推 文 。 同 理 ， 我 们 可 以 根据 关键 字 或 消息 类 型 对 推 文 进行 过 滤 ， 例 如 ， 只 接收 来 自 某 个 用 户 的 推 文 ， 或 来 自 其 粉丝 的 推 文 。 最 后 ， 第 三 种 数 
据 流 APl 是 站 点 数据 流 (Site Streams) ， 它 提供 了 来 自用 户 对 于 特定 服务 的 实时 更 新 。 这 种 类 型 基本 上 和 用 户 数据 流 的 差别 不 大 ， 但 它 附 加 指 
明了 推 文 的 接收 方 。 负 在 本 书 编写 的 时 间 点 ， 站 点 数据 流 API 还 处 于 受 限制 的 beta 测 试 状态 ， 所 以 我 们 不 会 对 它 的 细节 进行 讨论 。 


平 运 的 是 ， 我 们 不 必 成 为 数据 法 API 内 部 工作 原理 的 专家 ， 因 为 streamR 提 供 了 在 R 里 访问 它们 的 便利 包 妆 阔 数 (Barbera2013) 。 表 14-2 
提供 了 其 中 最 重要 函数 的 概况 ， 我 们 要 用 它 们 把 数据 集 进 行 汇 总 ， 用 于 在 14.2 忆 进行 预测 。 


表 14-2 sttreamR 组 件 部 分 函数 的 概况 


g BB 示 H 


连接 到 公共 数据 流 API; 文 持 通过 关 filterStream(file.name="superbowl _ 


filterStream() | ËF (track 参数 )、 用 户 (follow), 位 | tweets.json", track="superbowl", oauth= 


fi (location) 以 及 语言 进 行 过 滤 twitter sig)’ 
连接 到 公共 数据 流 API; 返回 公共 推 sampleStream(file.name="tweets. 
sampleStream() or i , , ; bey 
文 的 一 个 随机 小 规模 的 样本 json", timeout=60,oauth=twitter sig) 
连接 到 用 户 数 据 流 API; 返回 来 月 该 sampleStream(userStream="mytweets. 
userStream() 用 户 时 间 线 的 推 文 ; 文 持 通过 消息 类 | Gson",with="user",oauth=twitter 


型 、 关 键 字 和 位 置 进行 过 滤 sig) 


解析 下 载 的 推 文 ,也 就 是 说 ， 以 数 
据 框 形式 返回 数据 


parseTweets ( ) parseTweets ("tweets.json") 





14.1.3 “采集 并 预 处 理 数据 


要 及 集 围绕 2014 年 奥斯卡 奖 主题 的 推 文 抽样 ， 我 们 需要 设置 一 个 到 | 数据 流 API 的 连接 。 该 连接 开启 于 2014 年 2 月 28 日 ， 关 闭 于 2014 年 3 月 2 
日 ， 也 残 是 第 86 届 奥斯卡 奖 典礼 在 好 茉 坞 的 杜 比 剧院 开 朝 的 日 期 。 


我 们 首先 要 在 Twitter 注册 一 个 应 用 ， 以 获取 访问 Twitter 服务 所 必要 的 OAuth 证 书 。 通 过 streamR 的 接口 可 以 建立 一 个 到 该 数据 沅 API 的 连 
接 。 初 始 化 该 连接 的 命令 : 


R> filterStream("tweets oscars.json", track = c("Oscars", "Oscars2014"), 
timeout = 10800, oauth = twitCred) 


我 们 利用 filterStream () 函数 ， 配 套 带 有 关键 字 “Oscars” #0 “Oscars2014" 的 track 选 项 ， 对 推 文 抽 样 进行 过 滤 ， 这 样 会 匹配 任意 以 # 
号 标签 或 纯 文本 形式 包含 这 两 个 关键 字 之 一 的 推 文 。 我 们 把 这 个 过 程 分 拆 为 每 3 小 时 一 份 的 数据 流 (把 60x60x3 = 10800 设 定 为 timeout 选 项 的 
(6) ， 从 而 把 接收 的 推 文保 存在 可 管理 的 JSON 文 件 里 (将 数据 分 开 存 放 ， 可 有 效 控制 每 个 文件 的 大 小 ) 。 我 们 一 共 采 集 了 大 约 10GB 的 原始 数 
据 ， 或 者 说 大 约 2000000 条 推 文 。 


当 数 据 采 集 完成 后 ， 使 用 parseTweets () 函数 对 单个 文件 进行 解析 ， 从 而 把 这 些 JSON 文 件 转换 为 R 数 据 框 。 我 们 把 所 有 文件 合并 到 一 个 
数据 框 里 。 把 该 表 保 存 为 Rdata 格 式 ， 这 样 可 以 把 采集 到 的 推 文 消耗 的 内 存 减少 到 300MB 左 右 。 

R> tweets <- parseTweets ("tweets oscars.json", simplify = TRUE) 
[1] 我 们 假设 你 对 Twittef 已 经 有 基本 的 了 解 。 如 果 不 是 这 样 ， 请 查看 http://www.momthisishowtwittefwotks.com/ 的 有 趣 介 绍 。 
[2] 要 了 解 详细 的 总 体 情 况 ， 请 参阅 https://dev.twittet.comy/docs/api/1.1。 


[3] 参见 数据 流 API 的 文档 : https://dev.twitter.com/docs/api/streaming. 


[4] 也 可 以 参见 https:/ /dev.twitter.com/docs/streaming-apis/streams/site o 


14.2 ”基于 Twitter 的 2014 年 奥斯卡 奖 预测 | 


14.2.1 “对 数据 进行 视 锅 化 


在 转 到 对 推 文 内 容 的 分 析 之 前 ， 让 我 们 先 花 点 时 间 对 数据 量 进行 视觉 化 的 检查 。 具 体 说 ， 我 们 要 创建 一 个 在 2014 年 2 月 底 到 3 月 初 的 搜索 期 
间 里 每 小 时 推 文 数量 的 图 。( 最 简单 的 汇总 每 小 时 推 文 发 布 频率 的 方法 就 是 把 数据 集 created_at 里 的 字符 向 量 转换 为 POSIXct 类 型 的 真正 时 间 变 
量 。 我 们 利用 了 lubridate 组 件 ， 它 可 以 对 日 期 和 和 时 | 间 进 行 辅助 性 处 理 (Grolemund and Wickham 2011) 。 我 们 还 设 定 区 域 设置 (locale) 
为 US English， 以 便 能 解析 月 份 和 星期 的 英语 名 称 。 你 还 有 可 能 必须 调整 在 Sys.setlocale () 函数 里 的 值 以 适应 你 的 电脑 的 需求 。 [9 


R> library (lubridate) 
R> Sys.setlocale("LC TIME", "en US.UTF-8") 


要 解析 数据 集 里 的 时 间 戳 ， 我 们 可 以 使 用 as.POSIXct () 函数 ， 在 里 面 指定 变量 、 时 区 和 时 间 戳 的 格式 。 让 我 们 看 一 下 第 一 个 时 间 戳 ， 获 
得 这 种 格式 的 印象 。 


R> datscreated at [1] 
[1] "Fri Feb 28 10:11:14 +0000 2014" 


RIERREN A ENERE. EATE, WBA TER (%a) . Aft (%b) 、 日 期 (%d) 、 时 间 (%H: 
%M: %S) 、 时 区 的 偏 移 值 (%z) ， 以 及 年 份 (%Y) 。 我 们 用 百 分 号 占 位 符 对 信息 里 的 各 个 部 分 进行 抽象 化 表达 ， 然 后 让 R 来 解析 这 些 值 。 


R> datstime <- as.POSIXct(dat$created at, tz = "UTC", format = "%a 
tb $d %H:3M:%S Sz BY") 


既然 我 们 创建 了 一 个 名 副 其 实 的 时 间 戳 ， 对 于 它 来 说 ，R 能 够 理解 包含 在 该 时 间 戳 里 的 信息 ， 我 们 就 可 以 利用 来 自 Jubridate 组 件 的 便利 国 
数 把 时 间 近 似 为 最 近 的 小 时 。 这 是 利用 round date () 函数 并 指定 它 的 unit 参 数 为 hour 来 完成 的 。 


R> datSround hour <- round date(datStime, unit = "hour") 


我 们 把 这 些 信 汇 总 到 一 个 表格 里 ， 把 它 转 换 为 一 个 数据 框 并 丢弃 最 后 一 条 记录 ， 因 为 我 们 大 约 就 是 在 那个 时 间 点 终止 数据 采集 的 ， 所 以 它 
只 包含 了 审查 过 的 信息 。 


R> plot time <- as.data.frame (table (datsround hour) ) 
R> plot time <- plot time[-nrow(plot time) ,] 


最 后 ， 我 们 创建 一 个 简单 图 形 ， 显 示 从 2 月 28 日 到 3 月 2 日 的 采集 期 间 的 每 小 时 推 文 数 (参见 图 14-1) 。 我 们 观察 到 ， 在 奥斯卡 奖 典礼 开始 
前 的 几 个 小 时 里 ， 推 文 数量 出 现 急速 增长 。 


R> plot(plot time[,2], type = "1", xaxt = "n", xlab = "Hour", ylab = 
"Frequency" ) 

R> axis(1, at = c(1, 20, 40, 60), labels = plot time[c(1, 20, 40, 60), 
113 
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图 14-1 有 关 2014 年 奥斯卡 奖 的 每 小 时 推 文 数 量 


14.2.2 ”挖掘 推 文 进 行 预 测 


在 本 节 ， 我 们 要 用 到 stringr 和 plyr 组 件 。 首 先 加 载 它们 。 


R> library (stringr) 
R> library (plyr) 


让 我 们 来 检查 数据 框 中 的 一 行 ， 感 受 一 下 在 该 数据 集 里 有 些 什么 数据 : [3 
R> unlist (dat [1234,]) 


text 

"RT @TheEllenShow: I'm very excited @Pharrell's performing his big 
hit "Happy" at the #Oscars. Spolier alert: I'll be hiding in his hat." 
retweet count 

"9383" 


created at 
"Fri Feb 28 10:50:13 +0000 2014" 


user created at 
"Sun Jan 08 21:22:49 +0000 2012" 
statuses count 


"475" 

followers count 
"236" 

favourites count 
"23" 


friends count 

TILSAT 

screen name 

"SophiaGracer0oo7" 

lotext 

"rt @theellenshow: i'm very excited @pharrell's performing his big 
hit "happy" at the #oscars. spolier alert: i'll be hiding in his hat." 
time 

"1393584613" 

round hour 

"13593565200" 


你 会 发 现 除 了 推 文 的 实际 文字 ， 还 有 很 多 补充 信息 ， 尤 其 是 我 们 在 14.2.1 节 所 依赖 的 时 间 戳 。 数 据 集 里 的 最 后 三 个 变量 不 是 Twitter 而 是 我 
们 创建 的 。 它 们 包含 了 用 tolower () 函数 转换 为 小 写 的 推 文 文字 ， 以 及 时 间 (time) 和 取 整 时 间 (round hour， 即 取 整 的 小 时 ) 。 

现在 ， 要 查找 有 关 最 佳 男 演员 、 最 佳 女 演员 和 最 佳 影片 提名 的 引用 ， 我 们 就 直接 创建 三 个 搜索 条 件 的 向 量 。 男 演员 和 女 演 员 的 搜索 条 件 就 
是 演员 的 全 名 ， 而 对 于 最 佳 影片 ， 我 们 特意 针对 “12Years a Slave” #0 “The Wolf of Wall Street” 各自 创 建 了 两 个 正则 表达 式 ， 因 为 很 多 在 
Twitter 上 的 用 户 会 用 到 片 名 的 某 一 个 变 体 外。 注意 ， 我 们 指定 所 有 向 量 为 小 写 ， 因 为 我 们 想 要 用 小 写 的 形式 来 对 搜索 条 件 和 推 文 进行 匹配 。b| 


R> actor <- c( 
"matthew mcconaughey", 
"christian bale", 
"bruce dern", 
"leonardo dicaprio", 
"chiwetel ejiofor" 


R> actress <- c( 
"cate blanchett", 
"amy adams", 
"sandra bullock", 
"Judi dench", 
"meryl streep" 


R> film <- c( 
"(12|twelve) years a slave", 
"american hustle", 
"Captain phillips", 
"dallas buyers club", 
"Saray". 
"nebraska", 
"philomena", 
"(the )?wolf of wall street" 


我 们 接着 通过 调用 lapply () ， 对 小 写 的 所 有 推 文 (dat$lotext) 调用 str_detect () 函数 ， 以 此 在 推 文 中 检测 搜索 条 件 。 搜 索 结果 用 
Idply () 转换 为 普通 的 数据 框 ， 最 后 再 给 列 名 分 配 有 意义 的 命 


R> tmp actor <- lapply(dat$lotext, str detect, actor) 

R> dat actor <- ldply (tmp actor) 

R> colnames (dat actor) <- c("mcconaughey", "bale", "dern", "dicaprio", 
"ejiofor") 

R> tmp actress <- lapply(dat$lotext, str detect, actress) 

R> dat actress <- ldply(tmp actress) 

R> colnames (dat actress) <- c("blanchett", "adams", "bullock", "dench", 
"streep") 


R> tmp film <- lapply(dat$lotext, str detect, film) 

R> dat film <- ldply (tmp film) 

R> colnames (dat film) <- c("twelve years", "american hustle", "capt 
phillips", "dallas buyers", "gravity", "nebraska", "philomena", 
"wolf wallstreet") 


为 了 检查 结果 ， 我 们 直接 汇总 TRUE 值 。 之 所 以 能 这 样 做 ， 是 因为 对 sum () 的 调用 会 把 TRUE 取 值 1， 对 FALSE 取 值 0。 


R> apply(dat actor, 2, sum) 


mecconaughey bale dern dicaprio ejiofor 
6190 1255 912 23479 Loa 


R> apply (dat actress, 2, sum) 


blanchett adams bullock dench streep 
6790 5743 3272 765 3801 


R> apply(dat film, 2, sum) 


twelve years american hustle capt phillips dallas buyers 


11339 6122 2003 4560 
gravity nebraska philomena wolf wallstreet 
22570 3602 2236 6741 


我 们 上 友 现 Leonardo DiCaprio ( 即 莱 昂 纳 多 : 迪 卡 普 里 奥 ) 和 奥斯卡 最 佳 男 演员 的 实际 获奖 者 Matthew McConaughey 相 比 ， 在 Twitter 上 
有 更 多 的 热 议 。 实 际 上 ， 在 DiCaprio 和 McConaughey 的 相关 推 文 数量 之 间 存 在 相当 大 的 差距 。 相 反 ， 被 提名 的 最 佳 女 演员 人 选 在 Twitter 上 被 
提 到 的 频率 倒是 分 布 得 更 平均 一 些 。 此 外 ， 该 奖项 的 实际 获奖 者 Cate Blanchett 实 际 上 就 是 被 提 到 最 多 的 那个 人 。 最 后 ， 转 到 最 佳 影 片 方 面 ， 
我 们 发 现 (获奖 的 ) “12Years a Slave” 倒 不 是 被 提 到 最 多 的 ， 而 “Gravity” 被 提 到 的 次 数 大 约 是 它 的 两 倍 。 


对 于 最 佳 男 演员 和 最 侍女 演员 的 结果 ， 我 们 决定 要 进行 一 次 正确 性 检查 。 因 为 某 些 名 字 比 较 难以 拼写 ， 我 们 有 可 能 会 对 这 些 演员 的 计数 上 
产生 偏差 。 相 应 地 ， 我 们 利用 能 够 进行 近似 匹配 的 agrep O 函数 执行 了 一 次 额外 的 搜索 。[oj 对 结果 进行 了 汇总 和 展 平 ， 从 而 对 两 个 分 类 获取 长 
度 为 5 的 数字 向 量 。 照 例 ， 我 们 给 结果 向 量 分 配 了 有 意义 的 命 


R> tmp actor2 <- lapply (actor, agrep, dat$lotext) 

R> length actor <- unlist(lapply(tmp actor2, length) ) 

R> names(length actor) <- c("mcconaughey", "bale", "dern", "dicaprio", 
"ejiofor") 


R> tmp actress2 <- lapply(actress, agrep, dat$lotext) 

R> length actress <- unlist(lapply(tmp actress2, length) ) 

R> names(length actress) <- c("blanchett", "adams", "bullock", "dench", 
"Streep") 


R> length actor 


mcconaughey bale dern dicaprio ejiofor 
8034 1663 3672 29643 tS a e 


R> length actress 


blanchett adams bullock dench streep 
22556 6796 5464 1065 全 与 和 


总 体 而 言 ， 得 出 的 结论 仍然 保持 相当 稳定 。 在 运用 近似 匹配 之 后 ，Leonardo DiCaprio 比 Matthew McConaughey 在 颁奖 典礼 前 有 更 多 的 
热 议 ， 而 最 佳 女 演员 奖 得 主 Cate Blanchett 是 被 提 到 最 多 的 候选 人 。 


[1] ”数据 可 以 在 http://www.t-datacollection.com 获 取 ， 我 们 邀请 你 自己 下 载 数据 并 拿 它 练 练 手 。 也 许 你 能 发 现 我 们 的 简单 分 析 里 没 发 现 的 一 些 规 
律 。 


2] 如 果 你 使 用 Windows 操 作 系 统 ， 该 函数 必须 声明 为 Sys.setlocale("LC_TIME", “English") o 
[3] 为 了 节省 空间 ， 我 们 丢弃 了 其 中 的 某 些 变量 。 
[4] 即 代 码 里 的 “twelve years a slave” fe “wolf of wall street” 。 





IEA iE 
[5] RAMAT EX “He?” ， 因 为 它 会 产生 很 多 噪声 (因为 het 这 个 单词 太 常见 了 ， 会 把 很 多 无 关 的 推 文 也 带 到 搜索 结果 里 ， 寻 致 结果 失真 ) ， 
会 需要 比 我 们 后 续 讨 论 里 用 到 的 更 精细 的 方法 才能 处 理 。 


[6] 要 详细 了 解 近似 匹配 ， 请 参阅 第 8 章 。 


14.3 结论 


对 于 那些 天 注 无 数 公众 热 议 话题 的 社会 科学 家 来 说 ，Twitter 为 他 们 提供 了 丰富 的 资源 。 在 本 章 里 ， 我 们 简短 介绍 了 从 Twitter 采集 数据 并 用 
于 研究 的 各 种 可 能 性 。 我 们 讨论 了 streamR 和 twitteR 组 件 ， 用 它们 连接 当前 和 回顾 了 式 数据 采集 这 两 种 的 主要 访问 点 。 


在 具体 应 用 里 ， 我 们 调研 了 在 Twitter 上 天 于 2014 年 奥斯卡 奖 颁奖 前 一 天 对 最 佳 男 演员 、 最 佳 女 演员 以 及 最 佳 影片 候选 人 的 讨论 情况 是 否 能 
反映 出 最 终 获 奖 者 是 谁 。 由 于 本 书 更 关心 数据 采集 而 不 是 数据 分 析 ， 我 们 在 本 例子 中 运用 的 技术 是 相当 简单 的 。 我 们 邀请 你 从 本 书 配套 的 网 站 
上 下 载 这 些 数据 ， 并 杀 自 拿 它 来 练 练 手 。 具 体 来 说 ， 我 们 邀请 你 重复 我 们 的 分 析 过 程 ， 并 对 推 文 运用 情感 分 析 (参阅 第 17 章 ) 来 尝试 改善 预测 
的 准确 度 。 


第 15 草 ”绘制 姓氏 地 理 分 布 


本 章 练习 的 目标 是 采集 关于 德国 人 姓氏 的 地 理 分 布 情况 的 数据 。 这 种 分 布 图 是 在 家 谱 和 姓氏 研究 (也 就 是 天 于 姓氏 及 其 起 源 的 研究 ) 方面 
流行 的 视 学 化 手段 (Barratt 2008; Christian 2012; Osborn 2012) 。 有 资料 表明 ， 尽 管 在 过 去 十 年 劳动 力 的 流动 性 有 所 增长 ， 但 那些 紧密 关 
联 于 特定 区 域 环境 的 姓氏 继续 保持 了 它们 在 地 理 上 的 根据 地 (Barrai et al.2001; Fox and Lasker 1983; Yasuda et al.1974) 。 除 了 它们 的 科 
研 价值 ， 姓 氏 地 图 对 于 那些 对 姓氏 根源 感 兴趣 的 人 有 更 大 的 吸引 力 。 此 外 ， 它 们 能 把 数据 以 一 种 最 美观 和 深入 的 方式 (地理 分 布 图 ) 进行 视觉 
化 。 


在 本 章 ， 我 们 会 对 地 理 信 息 在 R 里 的 视 竞 化 进行 简单 介绍 。 这 会 是 一 个 困难 的 任务 ， 而 且 如 果 你 的 数据 和 在 本 章 里 所 用 数据 的 规格 不 匹配 ， 
我 们 推荐 阅读 Kahle 和 Wickham (2013) 以 及 Bivand et al. (2013b) 对 应 的 参考 文献 ， 以 了 解 R 里 更 先进 的 空间 数据 视觉 化 工具 。 为 了 获得 必 
要 的 数据 ， 我 们 依赖 一 个 德国 电话 号 码 湾 提 供 商 的 在 线 目录 (www.dastelefonbuch.de) 。 作 为 案例 的 演示 ， 我 们 要 对 一 套 德国 人 姓氏 的 地 理 
分 布 情况 进行 视 况 化。 本 章 的 目标 是 编写 一 个 程序 ， 它 能 轻松 地 把 任意 姓氏 作为 参数 对 一 个 函数 进行 调用 ， 并 产生 该 姓氏 的 地 理 分 布 图 。 此 
外 ， 该 调用 应 该 返回 一 个 数据 框 ， 其 中 包含 所 有 抓 取 到 的 记录 ， 以 便 后 续 分 析 。 

本 案例 分 析 还 有 另 一 个 用 途 : 它 不 是 一 个 网 络 抓 取 的 童话 故事 例子 ， 而 是 展示 了 在 现实 中 存在 的 某 些 缺陷 ， 以 及 应 对 它们 的 方法 。 宗 例 分 


析 由 此 讲解 到 ， 教 科 书 理论 并 不 一 定 忌 能 和 现实 情况 匹配 。 我 们 要 解决 的 问题 包括 : (a) 不 完整 和 杂乱 的 数据 ，(b) 合成 一 体 的 数据 却 分 散 
在 HTML 树 里 ，(c) 受 限制 的 “每 页 N 条 数据 ”功能 ， (d) 没有 文档 的 URL 参 数 。 


15.1 rile BSR Sern 


在 开始 钻研 在 线 电 话 号 码 簿 之 前 ,我 们 先 考 虑 想 要 采集 信息 的 类 型 ， 以 及 电话 号 码 簿 是 否 是 获取 这 种 信息 的 合适 来 源 。 我 们 的 目标 是 分 析 
当前 姓氏 分 布 的 情况 。 所 谓 分 布 情况 ， 是 针对 大 约 8000 万 德国 人 口 的 姓氏 而 言 的 。 我 们 要 采集 数据 ， 把 它 用 于 摘 述 性 以 及 辅助 性 的 分 析 。 理 想 
的 数据 来 源 应 该 能 针对 所 有 居民 姓氏 提供 完整 是 最 新 的 清单 ， 并 与 准确 的 地 理 识 别 符 相 联系 。 这 样 的 一 个 清单 会 产生 严重 的 隐私 问题 。 


根据 其 用 途 可 知 ， 电 话 号 码 短 是 公开 的 数据 源 。 它 们 提供 了 有 关 姓 名 和 住址 的 信息 ， 因 此 它们 可 以 作为 近似 分 析 姓 氏 真 实 分 布 情况 的 候选 
方案 之 一 。 不 过 ， 在 数据 质量 方面 我 们 必须 问 目 己 : 电话 号 码 短 是 个 是 一 种 可 靠 而 且 合法 的 来 源 ” 有 一 毕 理由 给 出 肯定 答案 : 首先 ， 它 们 至少 


每 年 会 更 新 一 次 。 其 次 ， 地 理 识 别 符 〈 例 如， 街道 和 邮政 编码 ) 通 音 足够 准确 ， 能 把 居民 的 位 置 确定 在 半径 小 于 20km 的 圆 形 区 域内 。 电 话 号 码 
往 提 供 了 这 种 准确 的 地 理 识别 符 ， 在 本 练习 中 ， 这 一 事实 应 该 是 该 数据 源 的 天 键 属性 。 要 想 册 找到 另 一 个 可 以 目 由 获取 的 蔡 代 数据 是 很 困难 
的 。 


不 六 的 是 ， 我 们 也 必须 注意 电话 号 码 簿 的 限制 。 首 先 ， 并 不 是 每 个 人 都 有 电话 ， 而 且 并 不 是 每 部 电话 都 列 在 电话 号 码 簿 里 。 随 着 手机 数量 
的 激增 ， 这 个 问题 束 进 一 步 加 剧 了 。 其 次 ,电话 号 码 簿 偶尔 会 包含 重复 的 数据 。 利 用 邮政 编码 作为 地 理 识别 符 会 给 数据 加 入 一 些 噪声 ， 但 这 种 
不 准确 性 是 可 以 忽略 的 。 毕 竟 我 们 感 兴趣 的 是 总 体 情况 ， 而 不 是 在 街道 层次 精确 定位 姓氏 的 位 置 。 


关于 替代 数据 源 ， 有 几 个 网 站 提供 了 现成 的 分 布地 图 ， 通 常 也 是 基于 电话 号 码 簿 条 目的 。(1 不 过 ， 这 些 网 页 通常 不 提供 汇总 统计 ， 或 对 它 
所 产生 分 布 图 的 来 源 含 糊 其 辞 。 在 这 些 网 站 上 经 常 推销 的 商业 化 软件 也 是 如 此 。 因 此 ， 我 们 要 依靠 在 线 电 话 号 码 短 产生 我 们 自己 的 地 图 。 


为 了 达到 这 个 目标 ， 我 们 采用 了 如 下 的 策略 : 
1) 找到 一 个 提供 了 我 们 所 需 信息 的 在 线 电 话 号 码 簿 。 
2) 熟悉 其 网 页 结构 并 选择 提取 程序 。 


3) 应 用 该 提取 程序 : 检索 数据 、 提 取信 息 、 清 理 数据 ， 并 企 编写 代码 过 程 中 记录 没有 预见 到 的 问题 。 


~~ 


4) 对 数据 进行 视觉 化 和 分 析 。 


~~ 


5) 把 抓 取 任务 通用 化 。 


对 本 例 而 言 ， 我 们 已 经 对 可 用 的 在 线 电 话 号 码 簿 进行 了 一 些 调研 。 在 德国 基本 上 有 两 个 主要 的 提供 
商 ，www.dastelefonbuch.de 和 www.dasoertliche.de。 对 一 组 姓氏 样本 的 匹配 数量 进行 比较 的 时 候 ， 两 者 的 结果 几乎 是 相同 的 ， 所 以 两 家 提 
供 商 看 起 来 都 使 用 了 相似 的 数据 库 。 不 过 ， 对 查询 结果 的 显示 是 不 同 的 。www.dastelefonbuch.de 每 次 查询 最 多 允许 访问 2000 个 结果 ， 每 次 请 
求 的 查询 结果 数 是 可 以 调整 的 。 而 www.dasoertliche.de 则 提供 最 多 10000 条 匹配 结果 ， 但 每 页 只 显示 20 条 。 为 了 效率 和 抓 取 礼仪 考虑 ， 我 们 
优先 把 请 求 数量 减 到 最 少 ， 因 此 决定 用 www.dastelefonbuch.de 作 为 本 练习 的 主要 数据 源 。 


[1] 关于 现 有 的 提供 姓氏 地 图 服务 的 网 页 ， 在 https:/ /familysearch.org/learn/wiki/en/Surname_Distribution_Maps 有 比较 清楚 的 概述 。 


15.2 Babdud 


我 们 先 来 看 一 下 robots.txt， 弄 清楚 网 站 是 否 接受 以 自动 化 方法 访问 其 网 页 内 容 (参见 9.3.3 节 ) 。 我 们 友 现 某 些 机 器 人 确实 是 不 受 欢 迎 的 
(如 Googlebot-Image 和 trovitBot 机 器 人 ; 参见 图 15-1) 。 对 于 其 他 没有 提 到 的 机 器 人 ， 某 些 目 录 也 是 不 允许 抓 取 的 ， 如 /scripts/ 
或 /styles/。 根 路 径 则 没有 被 荣 止 抓 了 到 ， 所 以 我 们 可 以 赁 民心 向 该 网 站 友 出 小 规模 的 自动 化 请 求 。 文 件 的 底部 展现 了 一 些 有 意思 的 XML 文件 。 通 
过 访问 这 些 链接 ， 我 们 发 现 了 比较 大 的 压缩 XML 文件 ， 里 面 显然 包含 了 有 天 所 有 城市 里 姓氏 的 信息 。 这 有 可 能 是 一 个 强大 的 数据 源 ， 因 为 它 可 
能 会 引出 该 网 站 数据 库 里 的 可 用 姓氏 信息 。 不 过 ， 我 们 没有 利用 这 些 数据 ， 因 为 我 们 并 不 是 特别 清楚 如 何 把 这 样 的 清单 用 于 具体 目标 。 


# robots.txt for http://www.dastelefonbuch.de/ 
# sc 20130402 1.56, Vorgaengerversion: sc 20130128 
(...) 


wm N = 


5| User-agent: Googlebot -Image 
6| Disallow: / 


8| User-agent: trovitBot 
Disallow: / 


ll | User-agent: * 

12 | Disallow: /scripts/ 

13 | Disallow: /styles/ 

14| Disallow: /katalog/scripts/ 

15 | Disallow: /katalog/styles/ 

16 | Disallow: /telefonbuch/scripts/ 
17 | Disallow: /telefonbuch/styles/ 
W C2224 


20| # Sitemap files 
21 | Sitemap: http://www.dastelefonbuch.de/xml-sitemaps/ 


telefonbuch nachnamen sitemap index.xml 

22 | Sitemap: http://www.dastelefonbuch.de/xml-sitemaps/ 
telefonbuch behoerden sitemap index.xml 

23 | Sitemap: http://www.dastelefonbuch.de/xml-sitemaps/ 
telefonbuch branchen sitemap index.xml 

24 never 





图 15-1 www.dastelefonbuch.de_E robots.txt 4 Fi $ 


我 们 接着 对 该 网 站 的 功能 和 架构 进行 深入 的 检查 。 在 简单 搜索 模式 下 ， 我 们 可 以 指定 两 个 参数 ， 即 搜索 的 人 物 (“Wer/Was”) 和 地 点 
( "Wo" ) 。 让 我 们 先 发 出 一 个 样本 请 求 。 我 们 查询 带 有 姓氏 “Feuerstein” 的 条 目 。[1 在 左 侧 的 列 中 报告 了 匹配 的 总 数 (837) ， 其 中 149 
个 是 单位 名 ( 见 结果 上 部 的 Firmen) ，688 个 是 个 人 姓氏 ( 见 结果 上 部 的 Personen) 。 我 们 只 对 个 人 姓氏 感 兴趣 ， 并 只 选取 这 部 分 匹配 的 子 样 
本 。 查 询 结果 的 清单 本 身 是 在 页 面 中 间 的 列 里 的 。 姓 氏 和 名 字 (如 果 有 ) 显示 在 条 目的 第 一 行 ， 地 址 则 显示 在 第 二 行 。 某 些 条 目 没有 提供 任何 
地 址 。 在 网 页 最 右 侧 的 列 ， 查 询 结果 已 经 显示 在 一 个 地 图 上 了 。 这 就 是 我 们 在 寻找 的 信息 ， 但 是 看 起 来 从 查询 清单 而 不 是 基于 JavaScript 的 地 图 
上 抓 取 数 据 更 为 方便 。 上 我 们 还 观察 到 ， 当 把 请 求 发 送 给 服务 器 之 后 ，URL 改 变 了 。 它 的 完整 形式 如 下 所 示 : 


http:/ /www3 .dastelefonbuch.de/?bi=76&kw=Feuerstein&cmd=search&seed= 
1010762549&0rt ok=l&vert ok=1&buab=622100&mergerid=A43F7DB343E7F461D 
5506CA8A7DBB734&mdest=secl1 .www1l%2Csec2 .www2%2Csec3 .www3%2Csec4 . www4 
&recfrom=&a0ol=1&a02=0&sp=51&aktion=105 


GR, MARSA EMA RABE, CAERA RRRA, BU?” Stee. Cla+ eH 
要 在 程序 里 设置 这 些 参 数 ， 我 们 就 必须 弄 清楚 它们 的 含义 。 不 幸 的 是 ， 在 该 页 面 的 源 代码 里 并 没有 任何 文档 。 因 此 ， 我 们 只 能 尝试 通过 反复 试 
探 并 比较 显示 的 输出 ， 对 它们 的 含义 进行 人 肉 探索 。 我 们 发 现 kw 参 数 包 含 了 我 们 要 搜索 的 关键 字 。 注 意 ，URL 编 码 在 这 里 是 必需 的 ， 也 就 是 我 
们 要 通过 M%FCller 而 不 是 Muller 来 进行 搜索 ， 以 此 类 推 。cmd= search 是 搜索 动作 的 触发 器 ， 而 ao1= 1 的 意思 是 只 需要 显示 个 人 姓氏 (不 包括 
单位 名 ) 的 条 目 。 某 些 参数 可 以 去 掉 ， 而 不 会 使 显示 的 内 容 发 生 任何 变化 。 通 过 手工 指定 某 些 搜索 参数 ， 我 们 鉴别 出 了 另 一 个 有 用 的 参数 : 
reccount 定 义 了 在 页 面 上 显示 的 匹配 结果 数量 。 用 过 搜索 引擎 的 同学 都 知道 ， 因 为 效率 ， 这 个 数量 通常 限制 在 10~ 50。 在 我 们 这 个 案例 中 ， 在 


浏览 器 里 显示 的 选项 是 每 页 20、50 和 100 个 匹配 结果 。 不 过 ， 我 们 可 以 在 URL 里 手工 指定 这 个 值 ， 将 其 指定 为 最 大 值 2000。 这 是 非常 有 用 的 ， 
因为 一 次 查询 束 可 以 满足 抓 取 所 有 能 找到 的 结果 的 需求 。 总 体 而 言 ， 在 网 络 抓 取 实 践 中 ， 向 服务 器 友 送 请 求 之 前 和 之 后 对 URL 进 行 检查 往往 是 
有 人 葵 的 ， 而 且 这 些 获 荔 不 仅 限于 9.1.3 忆 提出 的 特定 URL 操 作 策略 。 在 本 案例 中 ， 我 们 束 可 以 避免 为 了 下 载 所 有 匹配 结果 而 识别 并 抓 取 大 量 网 页 
的 需要 。 讲 解 元 这 些 内 容 之 后 ， 我 们 现在 可 以 开始 构建 网 络 抓 取 程序 了 。 


[1] ”Feuetstein 在 德语 里 是 打 火 石 (英语 的 Flint 或 Firestone) 的 意思 ， 正 如 你 将 要 看 到 的 ， 它 其 实 是 一 个 不 常见 的 姓氏 。 该 姓氏 的 知名 度 相当 高 ， 
因为 动画 片 系 列 “ 摩 登 原始 人 ” (The Flintstones) 的 德语 翻译 就 是 “Die Feuersteins” o 

P] 在 本 章 结 尾部 分 ， 我 们 会 更 深入 地 观察 地 图 背后 的 数据 。 

[3] 通过 对 源 代码 的 检查 ， 我 们 发 现 这 是 通过 隐藏 的 输入 元 素 实 现 的 。 


15.3 ”数据 检索 和 信息 提 


首先 ， 我们 要 加 载 一 批 本 练习 所 需要 的 组 件 。 除 了 通常 要 用 到 的 RCurl、XML 和 stringr， 我 们 加 载 了 额外 的 三 个 组 件 ， 它 们 为 地 理学 方面 的 
工作 提供 了 有 帮助 的 函数 : maptools (Bivand and Lewin-Koh 2013) 、rgdal (Bivand et al.2013a) 、maps (Brownrigg et al.2013) 和 
TeachingDemos (Snow 2013) 。 


R> library (RCur1) 

R> library (XML) 

Rs library (stringr) 

R> library (maptools) 

R> library (rgdal) 

R> library (maps) 

R> library (TeachingDemos) 


我 们 识别 了 URL 里 的 参数 ， 它 们 会 告诉 服务 器 返回 一 个 符合 我 们 要 求 的 HTML 泻 染 页 面 。 为 了 检索 对 于 姓氏 “Feuerstein” 的 搜索 结果 ， 我 
们 可 以 利用 getForm () 并 在 .params 人 参数 里 指定 URL 里 的 参数 。 


R> tb <- getForm("http://www.dastelefonbuch.de/", 


R> .params = c(kw = "Feuerstein", 
R> cmd = "search", 

R> aol = "i" 

R> reccount = "2000")) 


注意 ， 我 们 设置 了 reccount 参 数 为 最 大 值 2000， 以 确保 所 有 在 一 次 请 求 中 获得 的 匹配 结果 能 实际 抓 取 到 。 如 果 匹 配 的 数量 更 大 ， 我 们 融 获 
取 前 面 的 2000 条 。 我 们 会 在 下 面 更 深入 地 讨论 该 方法 的 缺点 。 返 回 的 内 容 保 仓 任 tb 对 象 里 ， 我 们 会 把 它 写 到 本 地 硬盘 的 
phonebook feuerstein.htm| 文 件 里 。 


R> dir.create ("phonebook feuerstein") 
R> write(tb, file = "phonebook feuerstein/phonebook feuerstein.html") 


现在 我 们 就 可 以 处 理 离线 数据 ， 而 无 有 顷 再 去 打扰 服务 器 了 ， 狭 义 上 的 屏幕 抓 取 工 作 部 分 已 经 结束 了 。 为 了 能 通过 探索 DOM 对 网 页 中 的 信息 
进行 访问 ， 我 们 可 以 利用 htmlParse () 并 保持 原始 的 UTF-8 编 码 对 它 进 行 解析 。 


R> tb parse <- htmlParse("phonebook feuerstein/phonebook feuerstein.html1", 
encoding = "UTF-8") 


我 们 可 以 开始 提取 记录 。 作 为 第 一 个 标杆 ， 我 们 要 提取 结果 忆 数 ， 以 便 检查 是 抓 取 了 所 有 记录 还 是 只 有 一 个 子 集 。 这 个 思 数 存放 在 左 侧 
列 ， 类 似 于 “Privat (687) ”。 要 从 HTML 文 件 检 索 这 个 数字 ， 我 们 先 从 一 个 XPath 查 询 开 始 。 在 HTML 代 码 里 定位 相关 的 那 一 行 ， 它 存放 在 
一 个 未 排序 的 锚 点 列表 中 。 我 们 在 该 列表 中 检索 包含 了 文本 特征 “Privat” 的 销 点 。 


R> xpath <- "//ul/li/a[contains(text(), 'Privat')]" 
R> num results <- xpathSApply(tb parse, xpath, xmlValue) 


R> num results 
[1] "\r\n Privat (687)" 


在 下 一 步 ， 我 们 要 利用 一 个 简单 的 正则 表达 式 提 取 该 字符 串 中 的 数字 序列 。 


R> num results <- as.numeric(str extract (num results, "[[:digit:]]+")) 
R> num results 
[1] 687 


作为 网 络 抓 取 中 党 有 的 情况 ， 做 事 的 方法 不 止 一 种 。 我 们 可 以 用 一 个 单纯 的 正则 表达 式 方 法 蔡 代 XPath 搭配 正则 表达 式 的 查询 ， 最 终 也 能 
获得 相同 的 结果 。 


现在 我 们 进展 到 了 这 个 问题 的 关键 部 分 ， 那 束 是 对 姓氏 和 地 理 信息 的 提取 。 为 了 在 DOM 树 中 定位 信息 ， 我 们 检查 了 结果 列表 中 的 某 些 元 
素 。 通 过 利用 浏 史 器 里 的 “查看 元 素 ” 或 类 似 选 项 识别 HTML 树 中 的 数据 (参见 6.3 节 ) ,我们 友 现 姓氏 是 包含 在 一 个 <a> 元 素 的 title 属 性 里 
的 ， 而 该 <a> 元 素 是 一 个 class 为 name 的 <div> 标 签 的 子 节 点 。 在 树 里 的 这 种 位 置 可 以 很 容易 地 利用 一 个 XPath 表达 式 的 手段 实现 通用 化 。 


R> xpath <- "//div[@class='name'] /a[@title]" 
R> surnames <- xpathSApply(tb parse, xpath, xmlValue) 
R> surnames [1:3] 


Li \r\n lt \t \tBertsch-Feuerstein Lilli" 
I Pirae \tBierig-Feuerstein Brigitte u. Feuerstein Norbert" 
[3] "\r\n\t\t \tBlatt Karl u. Feuerstein-Blatt Ursula" 


除了 要 在 数据 清理 阶段 去 掉 的 宛 余 回 车 和 换行 符 ， 这 个 结果 看 起 来 一 切 正 常 。 从 地 理 定位 提取 出 邮政 编码 也 是 很 简单 的 。 它 们 存放 在 
<Sspan> 元 素 里 ， 带 有 一 个 属性 itemprop= "postal-code"。 相 应 地 ， 我 们 编写 如 下 代码 : 


R> xpath <- "//span[@itemprop='postal-code']" 
R> zipcodes <- xpathSApply(tb parse, xpath, xmlValue) 
R> zipcodes [1:3] 


[1] " 64625" © 68549" " 68526" 
HAAA ERAR ER, Ree), CADENA asthe MER. KATSABNKEETABY. 


R> length(surnames) 
[1] 687 
R> length(zipcodes) 
[1] 642 


看 似 一 共和 缺少 了 45 个 邮政 编码 。 在 HTML 文 件 里 对 相关 条 目 进 行 仔细 检查 后 ， 我 们 友 现 某 些 条 目 缺 少 地 址 ， 因 而 也 残缺 少 了 邮政 编码 。 遗 
憾 的 是 ， 在 这 种 情况 下 ， 带 有 itemprop="postal-code" 属 性 的 <span> 元 素 也 是 缺失 的 。 如 果 只 关心 匹配 结果 的 位 置 ， 我 们 就 可 以 丢弃 姓氏 而 
只 提取 邮政 编码 。 不 过 ， 要 保持 姓氏 和 邮政 编码 在 一 起 以 便 后 续 分 析 ， 我 们 就 必须 调整 提取 六 数 。 


在 4.2.2 节 ， 我 们 已 经 接触 到 了 一 个 对 这 类 问题 有 巨大 帮助 的 工具 : XPath 轴 。XPath 轴 能 帮助 表达 在 类 似 家 系 树 的 节点 之 间 的 关系 。 这 意 
味 大 它们 可 以 用 来 对 相关 联 节 点 的 属性 进行 条 件 选 择 。 这 恰好 是 我 们 为 了 提取 互相 关联 的 姓氏 和 邮政 编码 所 需要 的 。 由 于 屿 少 邮政 编码 的 姓氏 
对 于 在 地 图 上 定位 分 析 结 果 是 没有 意义 的 ， 所 以 我 们 只 需要 提取 带 有 邮政 编码 的 那些 姓氏 。 需 要 的 XPath 表 达 式 会 更 复杂 一 些 ，。 


R> xpath <- "//span[@itemprop='postal-code'] /ancestor::div[@class=' 
popupMenu'] /preceding-sibling: :div[@class='name']" 
R> names vec <- xpathSApply(tb parse, xpath, xmlValue) 


让 我 们 从 后 往 前 逐步 分 析 这 个 调用 。 我 们 要 找 的 是 一 个 class 为 name 的 <div> 对 象 。 它 是 一 个 class 为 popupMenu 的 <div> 对 象 的 
preceding-sibling。 这 个 <div> 元 素 还 是 一 个 带 有 itemprop="postal-code" 属 性 的 span 元 素 的 祖先 。 对 解析 后 的 文档 通过 xpathSApply () 
运用 这 个 XPath 查 询 ， 返 回 了 一 个 链接 到 邮政 编码 的 姓氏 的 向 量 。 通 过 倒转 该 XPath 表 达 式 ， 我 们 也 可 以 提取 出 邮政 编码 。 


R> xpath <- "//div[@class='name'] /following-sibling::divl@class=' 
popupMenu'] //span [@itemprop='postal-code']" 
R> zipcodes vec <- xpathSApply(tb parse, xpath, xmlValue) 


我 们 比较 了 两 个 向 量 的 长 度 ， 友 现 它们 现在 的 长 度 是 相等 的 。 


R> length (names vec) 
[1] 642 

R> length(zipcodes vec) 
[1] 642 


在 最 后 一 步 ， 我 们 要 在 姓氏 向 量 里 删除 回 车 (\r) 、 换 行 (\n) 、 水 平 制 表 符 At) 以 及 空格 ， 把 邮政 编码 强制 转换 为 数字 ， 并 把 两 个 变量 
合并 到 一 个 数据 框 里 。 


R> names vec <- str replace all(names vec, "(\\n|\\t|\\r| {2,})", "") 
R> zipcodes vec <- as.numeric(zipcodes vec) 
R> entries df <- data.frame(plz = zipcodes vec, name = names vec) 
R> head(entries df) 
plz name 
1 64625 Bertsch-Feuerstein Lilli 
2 68549 Bierig-Feuerstein Brigitte u. Feuerstein Norbert 
3 68526 Blatt Karl u. Feuerstein-Blatt Ursula 
4 50733 Feuerstein 
5 63165 Feuerstein 
6 69207 Feuerstein 
15.4 “映射 姓氏 


对 于 在 15.1 世 里 概括 的 抓 取 策略 ， 在 检索 数据 、 提 取信 息 并 清理 数据 之 后 ， 我 们 刚刚 完成 第 三 步 。 下 一 步 是 在 一 个 地 图 上 绘制 抓 取 的 数 
据 。 为 此 ， 我 们 必须 : (1) 给 抓 取 到 的 邮政 编码 匹配 地 理 坐 标 ，(2) 把 它们 画 到 地 图 上 。 


在 网 上 进行 一 一 调 研 之 后 ， 我 们 发 现 有 个 数据 集 能 把 邮政 编码 (Postleitzahlen， 简 称 PLZ) 和 地 理 坐 标 关 联 起 来 。 它 是 OpenGeoDB 项 目 
(http://opengeodb.org/wiki/OpenGeoDB) 的 一 部 分 ， 可 以 自由 获取 。 我 们 把 该 文件 保存 到 本 地 硬盘 ， 并 在 R 里 加 载 。 


R> oseake(gec germany") 
R> download.file("http://fa-technik.adfc.de/code/opengeodb/PLZ.tab", 


destfile = "geo germany/plz de.txt") 


R> plz df <- read.delim("geo germany/plz de.txt", stringsAsFactors 
= FALSE, encoding = "UTF-8") 
Rs plz LL es | 


X.loc id plz lon lat Ort 
1 5078 1067 13.72 51.06 Dresden 
2 5079 1069 13.74 51.04 Dresden 


3 5080 1097 13.74 51.07 Dresden 


利用 共同 的 标识 变量 plz， 我 们 可 以 轻松 地 把 这 些 坐 标 信息 合并 到 entries_d 例 k 据 框 里 。!"] 


R> places geo <- merge(entries df, plz df, by = "plz", all.x = TRUE) 
R> places geo[1:3, |] 
plz name X.loc id lon lat Ort 
1 1159 Feuerstein Falk 5087 13:70 51704 Dresden 
2 1623 Feuerstein Regina 5122 13:30 51.17 Lotmatzech 
3 2827 Feuerstein Wolfgang S199 14.96 S13 Görlitz 


为 了 用 行政 区 域 边界 对 该 地 图 效果 进行 增强 ， 我 们 要 依靠 来 自 全 球 行政 区 域 数据 库 (the Global Administrative Areas 
database, GADM, 网 址 是 www.gadm.org) 的 数据 。 它 以 多 种 文件 格式 提供 了 许多 国家 的 地 理 数 据 。 访 数据 集 的 坐标 参考 系统 是 经 纬度 和 


WGS84 基 准 面 ， 和 我 们 的 邮政 编码 数据 框 的 坐标 正好 相配 。 【我们 下 载 了 包含 德国 的 shapefile 数 据 的 zip 文 件 ， 并 在 一 个 子 目 录 里 对 它 解压 : 


R> download.file("http://biogeo.ucdavis.edu/data/gadm2/shp/DEU adm.zip", 


destfile = "geo germany/ger shape.zip") 
R> unzip("geo germany/ger shape.zip", exdir = "geo germany") 
R> dir("geo germany") 
[1] "DEU adm0.csv" "DEU adm0 .dbf" "DEU adm0 .prj" "DEU adm0. shp" 
[5] "DEU adm0 .shx" "DEU adml.csv" "DEU adml.dbf" "DEU adml.prj" 
[9] "DEU_admil.shp" "DEU adml.shx" "DEU adm2.csv" "DEU adm2.dbf" 
[13] "DEU adm2.prj" "DEU adm2.shp" "DEU adm2.shx" "DEU adm3.csv" 
[17] "DEU adm3.dbf" "DEU adm3.prj" "DEU adm3.shp" "DEU adm3.shx" 
[21] "ger shape.zip" "plz de.txt" "read me.pdf" 


下 载 的 压缩 文件 里 面 有 一 组 文件 。shapefile 实 际 上 是 由 至 少 3 个 文件 组 成 的 : .shp 文 件 包 含 了 地 理 数据 ，.dbf 文 件 包 含 了 附加 在 地 理 对 象 上 
的 属性 数据 ， 而 .shx 文 件 包 含 了 地 理 数据 的 索引 。 文 件 夹 里 的 .prj 文 件 是 可 选 的 ， 包 含 了 关于 shapefile 投 影 格 式 的 信息 。 压 缩 文 件 里 一 共有 4 个 
shapefile 对 应 不 同 层次 的 行政 区 域 边界 。 利 用 maptools 组 件 (Bivand and Lewin-Koh 2013) ， 我 们 可 以 把 shapefile 数 据 导入 R 并 进行 处 
理 。readShapePoly () 函数 可 以 把 shapefile 转 换 为 SpatialPolygonsDataFrame 类 的 对 象 。 它 包含 了 行政 区 划 的 向 量 数据 (例如 ， 多 边 形 ) 
以 及 关联 到 这 些 多 边 形 的 实际 数据 (也 就 是 数据 框 ) 。 我 们 导入 两 个 shapefile: 最 高 层次 边界 ， 也 就 是 德国 的 国境 线 ; 次 级 边界 ， 也 就 是 联邦 
州 的 边界 。 此 外 ， 我 们 利用 CRS () 水 数 和 proj4string 参 数 ， 把 这 些 数 据 声明 为 根据 WGS84 坐 标 参 考 系 统 进行 投影 。 


R> projection <- CRS("4+proj=longlat +ellps=WGS84 +datum=WGS84") 
R> map germany <- readShapePoly(str_c(getwd(), "/geo germany/DEU adm0.shp"), 


proj4string = projection) 


R> map germany laender <- readShapePoly(str c(getwd(), 
"/geo germany/DEU_adml1.shp"), 
proj4string=projection) 


最 后 ， 我 们 要 把 数据 项 的 坐标 转换 为 一 个 与 地 图 数据 一 致 的 SpatialPoints 对 象 。 


R> coords <- SpatialPoints(cbind(places geoS$lon, places geoS$lat) ) 
R> proj4string (coords) <- CRS("+proj=longlat +ellps=WGS84 +datum=WGS84") 


为 了 获得 对 居民 定位 更 好 的 直观 感受 ， 我 们 还 要 加 入 德国 最 大 的 一 些 城市 的 位 置 。maps 组 件 (Brownrigg et al.2013) 对 于 这 个 用 途 极 其 
有 用 ， 因 为 它 包 含 了 全 世界 所 有 城市 的 列表 ， 包 括 它 们 的 坐标 。 我 们 提取 了 人 口 数量 大 于 450000 (这 是 为 了 在 地 图 上 显示 合理 数量 的 城市 而 随 
意 指 定 的 ) 的 德国 城市 ， 并 加 入 了 两 个 位 置 比较 有 特点 的 地 区 的 城市 。 


R> data("world.cities") 
R> cities ger <- subset (world.cities, 
country.etc == "Germany" & 
(world.cities$pop > 450000 | 
world.citiesSname %in% 
c("Mannheim", "Jena") ) ) 
R> coords cities <- SpatialPoints(cbind(cities gerSlong,cities gerSlat) ) 


我 们 要 逐 层 顺序 地 构建 该 地 图 。 首 先 ， 绘 制 国 境 线 。 其 次 ， 加 入 联邦 州 的 边界 。 抓 取 的 “Feuersteins” 姓 氏 居 民 所 在 位 置 和 选取 城市 的 位 
置 是 用 points () 函数 加 入 的 。 最 后 ， 加 入 城市 的 标签 。 


R> plot (map germany) 
R> plot(map germany laender, add = T) 


R> points (coords$coords.x1, coords$coords.x2, pch = 20) 
R> points (coords cities, col = "black", , bg = "grey", pch = 23) 
R> text(cities gerS$long, cities ger$lat, labels = cities gerSname, pos = 4) 


结果 如 图 15-2 所 示 。 匹 配 结果 的 分 布 情况 解释 了 基 些 有 趣 的 事实 。Feuersteins 姓 氏 最 大 的 人 群生 活 在 德国 的 西南 部 ， 位 于 曼 海 姆 
(Mannheim) 附近 的 地 区 。 
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图 15-2 “Feuetrsteins” 姓 氏 的 地 理 分 布 
[1 我 觉得 这 里 有 必要 详细 说 明 一 下 : 在 前 面 的 姓氏 -邮政 编码 数据 框 entries_df 里 ， 有 两 个 字段 plz 和 name，plz 是 邮政 编码 ，name 是 姓氏 ; 而 在 这 
个 邮政 编码 -坐标 数据 框 plz_df 里 有 5 个 字段 ， 其 中 的 邮政 编码 字段 也 是 plz， 和 前 面 的 正好 对 应 上 上， 因此， 通过 merge 函 数 就 可 以 按照 plz 匹 配 的 方 





式 把 这 两 个 数据 结构 合并 到 一 起 。 译 者 注 
[2] 如 果 你 想 更 深入 了 解 定义 不 同 投影 图 的 测量 系统 ， 可 以 参考 http://en.wikipedia.ote/wiki/Geodetic_datum 和 


http://en.wikipedia.org/wiki/Map_projection. 


15.5 “处理 过 程 目 动 化 


根据 抓 取 的 姓氏 绘制 地 图 是 一 个 只 需 略 微 修 改 束 可 以 反复 使 用 的 任务 的 例子 。 为 了 完成 本 练习 ， 我 们 开 友 了 一 组 函数 ， 它 们 能 把 上 述 抓 
取 、 解 析 和 映射 过 程 通用 化 ， 并 提供 某 些 选 项 来 调整 这 个 过 程 (参见 11.3 节 ) 。 在 我 们 的 例子 里 ， 有 关 某 个 姓氏 的 信息 很 少 随时 间 变 化 。 因 此 
对 于 一 个 姓氏 来 重复 这 个 任务 就 没有 太 大 意思 了 。 相 反 ， 我 们 想 要 能 针对 任何 姓氏 快速 地 产生 数据 和 地 图 。 


我 们 决定 把 这 个 过 程 分 解 为 3 个 函数 : 一 个 抓 取 函 数 、 一 个 解析 和 数据 清理 冰 数 、 一 个 映射 阔 数 。 昌 然 这 样 一 方面 意味 看 我 们 为 了 创建 一 个 
地 图 必须 调用 3 个 遂 数 ,但 是 这 些 消 数 会 更 容易 调试 和 修改 。 


图 15-3、 图 15-4 和 图 15-5 的 代码 显示 了 我 们 的 工作 成 果 。 这 是 前 面 代码 片段 的 浓缩 版 ， 并 通过 给 这 一 套 函 数 namesScrape () 、 
namesParse () 和 namesPlot () 加 入 一 些 有 用 的 参数 进行 了 增强 。 


namesScrape <- function(phonename, update.file = FALSE) { 
## transform phonename 
phonename <- tolower (phonename) 
## load libraries 
并 c- O("SCringr"; "Rearl*. =A") 
lapply(x, require, character.only=T) 
## create folder 


dir.create(str_c("phonebook ", phonename), showWarnings = FALSE) 
filename <- str_c("phonebook ", phonename, "/phonebook_", phonename, 
* Wea”) 

if (file.exists(filename) & update.file == FALSE) { 


message("Data already scraped; using data from ", file.info( 
filename) smtime) 
} else { 
## retrieve and save html 
tb <- getForm("http://www.dastelefonbuch.de/", 
.params = c(kw = phonename, cmd = "Search", aol = "1", reccount 
= "2000") ) 
write(tb, file filename) 





图 15-3 ”从 www.dastelefonbuch.de 抓 取 条 目的 通用 化 R 人 代码 


通常 ， 把 函数 和 普通 代码 区 分 开 的 特性 是 ， 它 们 能 : (1) 把 一 项 任务 通用 化 ， (2) 以 参数 的 形式 提供 灵活 性 。 用 哪些 参数 来 存放 变量 
(也 惑 是 说 ， 函 数 的 用 户 容易 修改 的 东西 ) ， 把 哪些 参数 固定 ， 这 总 是 由 函数 编写 者 来 决定 的 ， 对 于 我 们 的 阔 数 ， 实 现 了 一 套 参 数 ， 如 表 15-1 
所 示 。 


表 15-1 电话 号 码 短 抓 取 函数 的 参数 详解 


GE 数 说 明 


phonename namesScrape() 和 namesParse( 的 主 参 数 ; 定义 要 获取 的 条 目的 名 称 namesPlot() 的 主 参数 
geodf 指定 了 存放 地 理 信息 的 data.frame 对 象 (GAXT 4238 H namesParse() 返回 ) 
update.file aH, PR R E a TT Fe EA A 

show.map 迎 辑 值 ， 声明 R 是 否 应 该 目 动 输出 一 个 市 有 对 记录 的 定位 的 地 图 

save.pdf WHR, 声明 有 R 是 否 应 该 把 该 地 图 保存 为 pdf 文件 

minsize.cities BPE, BEEE TE A PS de) A ice 

add.cities FA, FE BDA HO Py Sak HT 4 

print.names 多 辑 值 ， 声明 是 否 把 人 名 绘制 到 地 网 中 


我 们 选择 的 参数 主要 是 针对 结果 的 绘制 。 大 家 可 以 轻松 地 想到 更 多 用 于 抓 取 过 程 的 选项 。 比 如 ， 我 们 可 以 考虑 支持 一 次 发 出 多 个 请 求 、 明 
确 遵 守 robots.txt 的 要 求 册 或 定义 一 个 User-agent 标 头 字段 。 关 于 数据 处 理 过 程 ， 我 们 也 可 以 支持 指定 一 个 目录 来 保存 数据 和 地 图 。 因 为 简 
洁 ， 我 们 没有 进行 这 些 优化 工作 。 不 过 ， 任 何人 都 可 以 随意 修改 和 扩展 这 些 函 数 。 


让 我 们 来 讨论 一 下 代码 的 细节 。 在 抓 取消 数 hamesScrape () (615-3) 里 ，phonename 是 一 个 天 键 参数 。 我 们 使 用 tolower () 函数 
(参见 8.1 节 ) 获得 了 文件 名 的 一 致命 名 。 数 据 的 保存 方式 如 下 : 利用 对 dir.create () 的 调用 ， 创 建 了 一 个 目录 用 于 HTML 文 件 以 及 PDF 版 本 地 
图 的 保存 。 只 有 在 文件 不 存在 的 情况 下 ， 才 会 进行 抓 取 。 这 是 利用 file.exists () 函数 进行 检查 的 ， 或 者 当 用 户 明确 要 求 更 新 该 文件 (选项 
update.file==TRUE) 时 ， 也 会 重新 抓 取 。 人 否则 ， 就 会 显示 一 条 指向 已 有 文件 的 消息 ， 并 让 函数 加 载 旧 的 数据 。 


在 解析 阔 数 namesParse () 里 ( 见 图 15-4) ， 信 息 提取 过 程 和 前 面 的 相同 ， 另 外 还 给 出 了 结果 的 数量 。 访 阔 数 在 找到 超过 2000 个 匹配 结 
果 的 情况 下 会 显示 一 条 警告。 这 就 意味 着 获取 的 匹配 结果 并 不 是 完整 的 样本 。 此 外 ， 通 过 删除 姓氏 这 样 简单 粗暴 的 方式 ， 可 以 把 名 字 从 姓氏 向 
量 中 提取 出 来 。 该 函数 返回 包含 了 地 理 和 名 字 信 息 的 数据 框 ， 可 以 用 于 后 续 分 析 或 绘图 。 


Bo, FRiZaGeEZe a eanamesPlot () 


namesParse <- function (phonename) | 


Filename <- str_c("phonebook ", phonename, "/phonebook ", phonename, 


"html"™) 
## load libraries 

x ge- cl("stringr", "XML") 

lapply(x, require, character.only = TRUE) 
## parse html 

tb parse <- htmlParse(filename, encoding = "UTF-8") 
## check number of hits 

xpath <- '/ful/li/f/alecontains (text(), "Privat")]’ 

num results <- xpathSApply(tb parse, xpath, xmlValue) 


num results <- as.numeric(str extract (num results, ‘'[[:digit:]]+’)) 


if {num results <= 2000) { 


message ("Gross sample of ', num results, ' entries retrieved.’ ) 


| 


if (mum results > 2000) | 


message (num results, ' hits. Warning: No more than 2,000 entries 


will be retrieved’) 


| 


#H retrieve zipcodes and names 


xpath <- ‘//div[@class="name"] /following-sibling: :div[@class=" 


popupMenu"] //span [@itemprop="postal-code"] ' 
Zipcodes vec <- xpathSApply (tb parse, xpath, xmlValue) 


Zipcodes vec <- str replace all(zipcodes vec, "", "") 


xpath <- ‘//span [(@itemprop="postal-code"] /fancestor::div[@class=" 


popupMenu"] /preceding-sibling: :div[@class="name"] ’ 


names vec <- xpathSApply (tb parse, xpath, xmlValue) 


names vec <- str replace all(mames vec, "(\\n|\\t/\\rl| {2, }) 


## build data frame 


entries df <- data.frame(plz = as.numeric (zipcodes vec), name 


names vec) 


## match coordinates to zipcodes 


it 
F 


ji ") 


plz df <- read.delim("function data/plz_de.txt", stringsAsFactors = 


FALSE, encoding = "UTF-8") 


geodf <- mergelentries df, plz df, by = "pla", all.x = TRUE) 


geodf <- geodf[!is.na(geodf$lon),] 
## return data frame 
geodf <- geodf [, !names(geodf) tint "X.loc id"] 


return (geodf) 


图 15-4 ”从 www.dastelefonbuch.de 解 析 条 目的 通用 化 R 代 码 


在 本 地 。 我 们 也 加 入 了 选项 print.names， 用 于 显示 匹配 条 目 里 的 名 字 。 


E ~] Oo tA 让 Ra = 


namesPlot <- function(geodf, phonename, show.map = TRUE, save.pdf 
minsize.cities = 450000, add.cities = "", 
print.names = FALSE) { 


## load libraries 
x <- e("stringr", "maptools", "redal", "maps") 
lapply(x, require, character.only = TRUE) 

## prepare coordinates 
coords <z- SpatialPoints(cbind(geodfSlon, geodfs$lat) ) 


( 见 图 15-5) ， 并 按 前 面 概括 的 方法 产生 地 图 。 该 冰 数 文 持 把 绘制 的 地 图 作为 PDF 文件 保 仔 





TRUE, 


9 pro j4string (coords) <- CRS("4proj=longlat +ellps=WGS84 +datum=WGS84") 


10 | ## prepare map 


1] projection <- CRS("4+projslonglat +ellps=WGS84 +datum=WGS84") 
12 Map germany <- readShapePoly ("function data/DEU adm0.shp", 

13 proj4string = projection) 

|4 map germany laender <- readShapePoly ("function data/DEU adml.shp", 
15 proj4string = projection) 

I6 | ## add big cities (from maps package) 

17 data ("world.cities") 

I8 cities ger <- subset (world.cities, country.etc == "Germany" & 
19 (world.cities$pop > minsize.cities | 

20 world.citiesSname tint add.cities) ) 

21 coords cities <- SpatialPoints(cbind(cities ger$long, cities ger$lat) ) 
22| ## produce map 

23 i g- 0 

24 m <- 1 

25 while (i <= n) { 

26 if (save.pdf == TRUE & i < n) { 

27 pdf (file = str c ("phonebook ", phonename, "/map-", 
28 phonename, ".pdft"), height = 10, width = 7.5, 

29 family = "URWTimes" ) 

30) } 

31 if (show.map == TRUE | save.pdf == TRUE) { 

32 par{oma = c(0, 0, 0, O)) 

33 par imar = cio, 0; 2, Oh 

34 par(mfrow = ¢(1, 1)) 

35 plot (map germany) 

36 plot(map germany laender, add = TRUE) 

37 title (main = str c("People named ", toupper (phonename) , 
38 " in Germany") ) 

39 if (print.names == FALSE) { 

40) points (coordsScoords.*1, coordsScoords.x2, 

4] col = rob(i0, 10, 10, max = 255], 

4? bg = rgb(10, 10, 10, max = 255), 

43 pen = 20, cen = 1] 

44 } else { 

45 text (coords$coords.x1, coords$coords.x2, 

46 labels = str replace all (geodf $name, 

47 ignore .case(phonename), ""), cex = 

4s } 

49 points (coords cities, col = "black", , bg = "grey", pech 
50) shadowtext (cities ger$long,cities ger$lat, 

51 labels = cities gerSname, pos = 4, 

52 col = "Black"... Bo = "white", cex = 

33 } 

54 if (save.pdf == TRUE & i < n) | 

55 dev.off() 

56 \ 

57 if (show.map == FALSE) { 

5% i <- i + 1 

59 } 

60 i <e- i+ 1 

61 } 

62| } 


图 15-5 ”从 www.dastelefonbuch.de 映 射 条 目的 通用 化 R 人 代码 


我 们 要 用 一 套 技术 参数 来 测试 这 些 消 数 。 首 先 ， 我 们 要 查看 姓氏 为 “Gruber” 的 居民 分 布 情况 ， 并 显示 居民 数量 超过 300000 的 城市 。 


R> namesScrape ("Gruber") 
R> gruber df <- namesParse("Gruber", minsize.cities = 300000) 
R> namesPlot (gruber df, "Gruber", save.pdf = FALSE, show.map = FALSE) 


下 一 步 ， 我 们 要 抓 取 姓 氏 为 “Petersen” 的 居民 信息 。 我 们 以 前 已 经 进行 过 这 项 分 析 ， 这 次 强制 要 求 抓 取消 数 玩 新 文件 。 


R> namesScrape("Petersen", update.file = TRUE) 

R> petersen df <- namesParse ("Petersen") 

9605 hits. Warning: No more than 2,000 entries will be retrieved 

R> namesPlot (petersen df, "Petersen", save.pdf = FALSE, show.map = FALSE) 


最 后 ， 我 们 要 碍 看 “Dimpfl ”姓氏 的 分 布 情况 。 我 们 要 求 函 数 绘制 出 名 字 。 


R> namesScrape ("Dimpf1") 

Data already scraped; using data from 2014-01-16 00:22:03 

R> dimpfl df <- namesParse("Dimpf1") 

Gross sample of 109 entries retrieved. 

R> namesPlot(dimpfl df, "Dimpfl", save.pdf = FALSE, show.map = FALSE, 
print.names = TRUE) 


所 有 三 次 调用 的 输出 如 图 15-6 所 示 。 我 们 观察 到 Gruber 和 Dimpfl 姓 氏 都 集中 在 德国 的 南部 地 区 ， 而 Petersen 姓 氏 则 主要 居住 在 最 北部 。 注 
， 对 于 Dimpfls 姓 氏 ， 我 们 在 地 理 分 布 图 中 看 到 的 是 每 个 人 的 名 字 而 不 是 点 。 


elt 


最 后 ， 我 们 重新 考虑 一 下 这 个 抓 取 方法 里 的 一 个 近 术 问题 。 回 顾 一 下 ， 在 15.2 节 提 到 在 www.dastelefonbuch.de 上 进行 搜索 也 会 返回 一 个 
地 图 ， 里 面 会 对 匹配 结果 进行 定位 ， 这 基本 上 也 是 我 们 想 要 复制 的 效果 。 我 们 曾经 辩解 说 从 列表 里 抓 取 条 目 看 似 比 从 JavaScript 对 象 里 更 容易 。 
确实 ， 对 其 页 面 源 代码 的 检查 并 没有 友 现 任何 匹配 数据 。 但 是 如 果 知道 动态 页 面 的 构建 原理 就 是 通过 AJAX 方 法 的 手段 (参见 第 6 章 ) ， 这 个 情 
况 对 我 们 就 是 意料 之 中 的 。 因 此 ， 我 们 利用 浏览 器 的 Web 开 发 者 工具 来 识别 绘制 在 地 图 上 信息 的 来 源 (参见 6.3 节 ) 。 我 们 发 现 该 脚本 引发 了 下 
面 的 GET 请 求 : 


http://maps.dastelefonbuch.de/DasTelefonbuch/search.html?queryType= 
whatOnly&x=1324400.3811369245&y=6699724.7656052755&width=3033021. 
2837500004&height=1110477.1474374998&city=&searchTerm=Feuerstein& 
shapeName=tb/CA912598AEB53A4D1862D89ACA54C42E 2&minZoomLevel=4& 
maxZoomLevel=18&mapPixelWidth=1240&mapPixelHeight=454&o0rder=distance 
&maxHits=200 


这 个 发 现 有 意思 的 地 方 是 ， 这 个 请 求 会 返回 一 个 XML 文 件 ， 其 中 包含 了 和 我 们 前 面 的 抓 取 过 程 基 本 相同 的 信息 ， 以 及 在 地 图 上 定位 匹配 结 
果 的 坐标 。 因 此 ， 为 了 抓 取 相 关 信息 ， 大 家 束 可 以 直接 把 这 个 文件 作为 目标 。 这 样 做 的 优点 是 该 XML 文 件 的 结构 应 该 会 比 前 端 页 面 更 稳定 ， 让 
抓 取 程 序 对 于 页 面 布 局 的 变化 更 具 健 壮 性 。 其 次 ， 大 家 可 以 跳 过 把 邮政 编码 和 坐标 进行 匹配 的 步骤 。 不 过 ， 在 相关 URL 里 的 某 些 参数 (hits 
缩放 层次 和 绘图 区 域 的 边界 ) 有 够 似 进 一 步 限 制 了 返回 匹配 结果 的 数量 。 进 一 步 说 ，XML 文 档 的 结构 和 我 们 之 前 抓 取 的 HTML 网 页 的 相关 部 分 很 
大 程度 上 是 相同 的 。 这 意味 着 该 XML 文档 的 信息 提取 步骤 也 不 太 可 能 会 更 简单 。 尽 管 如 此 ， 碍 看 网 页 的 动态 泻 染 内 容 的 幕后 情况 总 是 值得 矢 试 
的 ， 因 为 会 有 一 些 场景 下 ， 相 天 数据 只 能 通过 这 种 方式 进行 抓 取 。 
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图 15-6 namesPlot () 函数 的 三 次 调用 的 结果 
[在 我 们 的 例子 里 ， 貌 似 没有 必要 在 意 tobots.txt。 我 们 在 这 个 网 站 上 浏览 过 并 调研 了 它 的 抓 取 政 策 。 


小 结 


在 本 章 展 示 的 代码 只 是 走 进 家 族 姓 氏 分 布 完 整 分 析 的 第 一 步 。 当 把 这 些 数据 用 于 科研 目的 时 ， 有 几 个 数据 质量 方面 的 问题 需要 考虑 。 首 
先 ， 匹 配 结果 有 2000 条 的 限制 。 由 于 匹配 结果 是 按 字 母 顺 序 排序 的 ， 抓 取样 本 的 截断 至 少 并 不 是 完全 随机 的 。 此 外 ， 数 据 可 能 包含 了 重复 内 容 
或 “ 假 阳性 ”。 即 使 大 家 对 于 数据 的 详细 研究 并 不 感 兴 趣 ， 前 面 设 计 的 函数 也 还 是 有 很 多 改善 的 空间 。 对 匹配 结果 的 点 表示 方法 可 以 用 密度 图 
蔡 损 ， 这 样 可 以 更 好 地 对 姓氏 经 昔 出 现 的 地 区 进行 视 营 化 。 


对 该 案例 更 具 普 遍 性 的 思 结 要 点 如 下 。 当 处 理 动态 内 容 的 时 候 ， 先 仔细 查看 源 代码 通常 是 值得 去 做 的 事情 。 大 家 应 该 首先 对 GET 请 求 中 人 参 
数 的 工作 原理 、 它 们 有 哪些 限制 ， 以 及 除了 通过 输入 域 POSsT 请 求 ， 是 否 有 其 他 检索 内 容 的 方法 等 问题 获得 基本 的 理解 。 天 于 地 理 数 据 的 使 用 ， 
有 个 经 验 是 : 只 要 能 获得 地 理 识别 符 ， 利 用 地 理 信息 改进 抓 取 到 的 数据 的 表现 束 不 难 。 里 然 并 不 忌 是 那么 直接 简单 ， 但 在 R 里 对 这 些 信息 进行 映 
射 是 可 行 的。 最 后 ， 把 必要 的 任务 分 解 成 一 组 具体 逆 数 会 比较 有 用 ， 并 能 让 代码 易于 管理 。 


第 16 章 ” 米 集 关于 手机 的 数据 


在 本 案例 分 析 中 ， 我 们 要 采集 天 于 在 amazon.com 上 销售 的 众多 手机 的 价格 、 消 费 者 评分 和 销售 排名 等 数据 ， 想 由 此 了 解 业 界 领 和 元 的 手机 
生产 商 所 覆盖 的 价格 区 段 。Amazon 销 售 的 产品 范围 很 广 ， 让 我 们 能 对 每 家 大 型 手机 生产 商 的 产品 进行 全 面 的 忌 结 。 


本 案例 分 析 利 用 了 RCurl、XML 和 stringr 组 件 ， 它 利用 了 RCurl curl 句 柄 ， 并 有 具备 搜索 页 操控 、 链 接 提 取 和 页 面 下 载 等 特性 。 在 学 习 本 案例 
分 析 之 后 ， 你 应 该 能 在 源 代 码 里 搜索 信息 并 把 XPath 运用 到 实际 问题 中 。 此 外 ， 在 本 案例 分 析 里 创建 了 一 个 SQLite 数 据 库 ， 它 能 以 一 致 的 方式 
保存 数据 ， 并 可 以 用 于 下 一 个 案例 分 析 。 


16.1.1 ERIS Emh AIF. 


TEHERAN m. A, RIEMER EE mde AIR eS Ena A Ra re. CS, RURE 
结果 里 排除 配件 和 二 手 手 机 的 万 法 。 


让 我 们 看 一 下 亚马逊 的 网 站 : www.amazon.com。 找 到 页 面 顶部 的 搜索 框 ， 参 见 图 16-1。 除 了 输入 搜索 关键 字 ， 我 们 还 可 以 选择 搜索 的 
分 类 。 操 作 如 下 : 


1) 在 搜索 框 里 输入 Apple 并 按 下 回 车 键 。 

2) 从 搜索 过 滤 条 件 里 选择 Cell Phones & Accessories (手机 及 其 配件 ) 然后 点 击 Go。 

3) 现在 点 击 页 面 左 侧 分 类 过 滤器 单元 里 的 Unlocked Cell Phones (没有 合约 锁定 的 手机 ) 。 
4) 输入 其 他 手机 生产 商 并 比较 产生 的 URL: URL 的 哪些 部 分 改变 了 ? 


5) 在 你 的 浏览 器 的 地 址 栏 里 尝试 去 掉 查 询 字符 串 的 一 些 部 分 ， 观 察 友 生 的 情况 。 尝 试 友 现 这 些 查 询 字符 忠 里 哪些 是 重 现 搜索 结果 所 必需 
的 ， 哪 些 是 可 以 去 掉 的 。 


Search Cell Phones & Accessories ~ 





S All Electronics Contract Cell Phones No-Contract Cell Phones l ked Cell Phones Accessories Best Sellers 


图 16-1 Amazon 的 搜索 表单 
在 浏览 器 的 Unlocked Cell Phones 分 类 里 搜索 特定 的 生产 商 时 ， 产 生 的 URL 如 下 所 示 : 


http://www.amazon.com/s/ref=nb sb noss 1? 


url=node%3D2407749011&fieldkeywords=Apple&rh=n%3A2335752011%2Cn%3A7072561011%2Cn%3A2407749011%2Ck%3AApple 
通过 安 试 删除 URL 里 的 各 部 分 参数 ， 我 们 友 现 下 面 的 URL 束 足以 重 现 搜索 结果 了 : 
http://www.amazon.com/s/?url=node%3D2407749011 &field-keywords=Apple 


查询 字符 串 的 field-keywords 部 分 会 改变 要 搜索 的 天 键 字 ， 而 ur| 则 限定 搜索 结果 为 没有 合约 锁定 的 手机 (unlocked cell phones) 。 我 们 
上 友 现 这 个 基础 URL 让 我 们 能 在 没有 合约 锁定 的 手机 分 类 中 进行 搜索 ， 而 且 可 以 对 这 个 URL 进 行 操纵 以 获取 不 同 天 键 字 的 搜索 结果 。 


通过 对 搜索 结果 进行 浏览 ， 我 们 友 现 里 面 经 贡 也 会 包含 其 他 生产 商 的 其 他 手机 。 页 面 均 侧 的 品牌 过 滤器 有 助 于 消除 这 些 噪 声 。 要 犹 得 限定 
品牌 的 搜索 结果 有 两 种 策略 : 我 们 既 可 以 找 出 产生 链接 的 规律 ， 然 后 创建 自己 的 链接 ; 也 可 以 从 一 个 非 限定 的 搜索 开始 ， 提 取 限 定 结果 的 链 
接 ， 之 后 再 利用 它 获 得 过 滤 后 的 搜索 结果 。 我 们 采用 第 二 种 办 法 ， 因 为 它 更 容易 实现 。 要 了 解 更 多 关于 识别 链接 的 方法 ， 我 们 可 以 对 品牌 过 滤 
的 钩 选 框 使 用 浏览 器 的 “ 检 覃 元 素 ” 工 具 : 


| | <a href="/s/ref=sr nr p 89 0?rh=n%3A2335752011%2Cn%3A7072561011% 
20n%3A2407749011¢2Cks3AApples2Cp 89%3AApple&amp ; keywords=Apple 
&amp ; 1e=UTF8 &amp; gid=1389615535&amp; rnid=2528832011" class=""> 

<img style="margin-right:4px; " height="12" width="12" border=" 


i) 


0" align="top" alt="Apple" srce="http://g-ecx.images-amazon. 
com/images/G/01/nav2/buttons/checkbox unselected enabled. _ 
V192545545 .jpg"> 

3 <span class="refinementLink">Apple</span> 

4 </a> 





我 们 在 寻找 的 链接 是 一 个 <a> 节 点 的 一 部 分 。 不 玉 的 是 ， 该 节点 没有 具体 的 class， 但 是 它 有 一 个 作为 子 节点 的 <span> 节 点 市 有 一 个 非常 
具体 的 classflrefinementLink。 这 个 节点 里 的 内 容 和 我 们 要 限定 搜索 结果 的 品牌 是 相等 的 。 把 这 个 情况 转化 为 XPath 的 意思 就 是 ， 我 们 要 搜索 
一 个 带 有 class 为 refinementLink 的 <span> 节 点 ， 该 节点 中 的 内 容 和 我 们 要 搜索 的 关键 字 相 等 。 我 们 要 从 这 个 <span> 节 点 再 向 上 一 层 找到 它 
的 父 节点 ， 并 选取 该 父 节 点 的 href 属 性 : 


l // span [@class="refinementLink" and text()="Apple"]/../@href 





现在 我 们 有 了 一 种 把 搜索 结果 限定 于 指定 生产 商 的 方法 ， 但 是 搜索 结果 是 以 默认 顺序 进行 排序 的 。 也 许 根 据 产 品 新 旧 程 度 进 行 排序 是 更 好 
的 主意 。 在 亚马逊 网 页 上 搜索 产品 之 后 ， 我 们 在 搜索 结果 上 方 能 看 到 一 个 下 拉 列 表 。 它 让 我 们 能 在 多 个 排序 条 件 中 选取 一 个 。 让 我 们 选取 
Newest Arrivals (最 新 上 市 ) ， 让 新 产品 列 在 最 前 面 。 在 选取 我 们 喜好 的 排序 方式 之 后 ， 在 URL 上 又 加 入 了 一 个 新 元 素 ， 即 &sort=date-desc- 
rank。 我 们 之 后 可 以 利用 它 来 构建 一 个 产生 排序 结果 的 URL。 


最 后 但 也 同样 重要 的 是 ， 第 一 个 结果 页 面 只 列 出 了 24 个 产品 ， 而 我 们 要 下 载 的 结果 超过 了 这 个 数量 。 为 此 ， 我 们 需要 选择 下 一 个 页 面 。 利 
用 页 面 底部 的 一 个 名 为 Next Page 的 链接 可 以 做 到 这 一 点 。 利 用 浏览 器 的 “查看 元 素 ” 工 具 ， 可 以 友 现 该 链接 有 个 独特 的 class 属 性 作为 标记 ， 
BpagnNext: 


l <a title="Next Page" id="pagnNextLink" class="pagnNext" href="/ 
gp/search/ref=sr pg 2?rh=n%3A2335752011%2Cn%3A7072561011%2Cn% 
3A2407749011%42Ck%3AApple&amp ; page=2&amp; sort=salesrank&amp; 


keywords=Apple&amp; 1e=UTF8 &amp ; gid=1389618220"> 
<span id="pagnNextString">Next Page</span> 
<span class="srSprite pagnNextArrow"></span> 
</a> 


e Ww N 





我 们 要 搜索 市 有 下 一 页 class 的 <a> 节 点 ， 并 提取 出 它们 的 href 属 性 。 这 是 利用 下 面 的 XPath 表达 式 来 完成 的 : 


l //a[@class='pagnNext'] /@href 
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现在 我 们 设置 好 了 所 有 元 素 ， 用 来 针对 没有 合约 锁定 的 特定 品牌 进行 指定 排序 条 件 的 产品 搜索 。 现 在 我 们 需要 把 下 刘 步 又 转化 为 R 代 码 : 
1) 指定 用 于 没有 合约 锁定 手机 的 基础 搜索 URL 并 下 载 该 (HTML) 文件 。 

2) 从 下 载 文件 的 源 代 码 里 搜索 并 提取 品牌 过 滤 的 链接 。 

3) 把 排序 参数 添加 到 前 面 提取 的 链接 的 查询 字符 串 后 面 ， 并 下 载 页 面 。 

4) 搜索 并 提取 到 下 一 页 的 链接 ， 并 下 载 下 一 页 。 在 必要 时 重复 此 步 又 。 


首先 ， 我 们 要 加 载 必 要 的 组 件 。stringr 组 件 可 以 作为 提取 和 处 理 文本 片段 的 通用 工具 ， 而 XML 和 RCurl 则 是 抓 取 任 务 的 主力 组 件 。RCurli 上 
我 们 能 通过 一 个 网 络 连接 下 载 多 个 文件 ， 而 XML 组 件 则 是 HTML 解 析 和 通过 XPath 进行 信息 提取 所 不 可 或 缺 的 : 


R> library (stringr) 
R> library (XML) 
R> library (RCur1) 


下 一 步 我 们 要 保存 基础 搜索 URL， 再 把 要 搜索 的 第 一 个 生产 商 保存 到 一 个 对 象 里 : 


R> baseURL <- "http://www.amazon.com/s/ref=nb sb noss 2?url=node%3 
D2407749011&field-keywords=" 
R> keyword <- "Apple" 


基础 URL 和 生产 商 名 通过 直接 调用 str_ c () 可 以 合并 在 一 起 ， 再 把 页 面 下 载 下 来 并 保 仔 人 在 一 个 对 象 里 : 


R> url <- str_c(baseURL, keyword) 
R> firstSearchPage <- getURL (url) 


要 友 出 XPath 查 询 ， 我 们 可 以 利用 htmlParse () 解析 页 面 并 将 其 保 仔 任 一 个 对 和 象 里 : 


R> parsedFirstSearchPage <- htmlParse(firstSearchPage) 


通过 把 生产 商 的 名 称 粘 贴 到 之 前 概括 的 XPath 表达 了 式 里 ， 我 们 可 以 指定 该 XPath 表达 式 ， 提 取出 限定 品牌 的 搜索 结果 的 链接 : 


R> xpath <- str_c('//span[@class="refinementLink" and text()="', 
R> keyword, 
R> eTA «cf OBTEE! ) 


我 们 要 使 用 这 个 XPath 表达 陈 来 提取 链接 ， 然 后 加 上 服务 器 的 基础 URL， 把 它 补充 完整 : 


R> restSearchPageLink <- xpathApply (parsedFirstSearchPage, xpath) 
R> restSearchPageLink <- unlist(as.character (restSearchPageLink) ) 
R> restSearchPageLink <- str_c("http://www.amazon.com", restSearchPageLink) 


最 后 ， 我 们 要 把 设 定 的 搜索 条 件 加 入 该 URL 的 查询 字符 串 里 : 


R> restSearchPageLink <- str _c(restSearchPageLink, "&sort=date-desc-rank") 
并 下 载 该 页 面 : 


R> restrictedSearchPage <- getURL(restSearchPageLink) 


这 样 ， 我 们 融 获 得 了 第 一 个 针对 限定 具体 生产 商 且 没有 合约 锁定 的 产品 分 类 的 产品 查询 结果 页 面 。 


现在 ， 我 们 要 下 载 后 续 的 查询 结果 页 面 ， 并 把 它们 保存 在 一 个 列表 对 象 里 。 首 先 ， 我 们 要 创建 一 个 列表 对 象 ， 并 把 第 一 个 搜索 结果 页 面 作 
为 它 的 第 一 个 元 素 保存 。 下 一 步 ， 把 提取 了 下 一 页 链接 的 XPath 表达 式 也 保存 起 来 ， 让 代码 的 可 读 性 更 好 [。 我 们 创建 了 一 个 循环 ， 获 取 前 5 个 
搜索 结果 页 面 。 在 每 次 迭代 中 ， 我 们 都 会 提取 下 一 页 的 链接 ， 并 把 页 面 下载 和 保存 到 我 们 的 列表 对 象 里 : 


R> SearchPages <- list() 

R> SearchPages[[1]] <- restrictedSearchPage 

R> xpath <- "//a[@class='pagnNext'] /@href" 

Rs ‘ter (i dn 225) { 
nextPageLink <- xpathApply(htmlParse(SearchPages[[i - 1]]), xpath) 
nextPageLink <- unlist (nextPageLink) 


nextPageLink <- str_c("http://www.amazon.com", nextPageLink) 
SearchPages[[i]] <- getURL(nextPageLink) 


16.1.2 提取 产品 信息 


在 16.1.1 节 里 ， 我 们 进行 了 搜索 ， 采 集 了 搜索 结果 。 企 本 节 ， 我 们 要 从 结果 中 采集 必要 的 数据 。 


首先 要 提取 的 信息 束 是 搜索 结果 页 面 的 产品 标题 ， 以 及 严 品 页 面 的 链接 。 利 用 “检查 元 素 ” 工 具 ， 我 们 可 以 友 现 链接 和 标题 都 是 一 个 3 级 标 
题 (一 个 <h3> 节 点 ) 的 一 部 分 。 在 源 代码 里 对 其 他 3 级 标题 的 搜索 结果 表明 ， 它 们 只 用 于 产品 标题 和 产品 负面 的 链接 : CE: 亚马逊 的 页 面 结 
构 和 样式 现在 都 已 经 发 生 了 变化 ， 上 述 HTML 代 码 现在 已 经 变 成 类 似 于 下 面 的 内 容 : 


<a class="a-link-normal s-access-detail-page a-text-normal" title="Apple iPhone 
4S 8GB 3G Smartphone White - Sprint" href= “http://www. amazon.com/Apple- 
iPhone -8GB-Smartphone-White/dp/BOOGRDM4SK/ref=sr_ 1 1?s=wireless&amp; ie=UTF8& 
amp ;gid=1438017763&amp; sr=1-lé&amp; keywords=Apple-iPhone-8GB-White-Sprint"> 
<h2 class="a-size-base a-color-null s-inline s-access-title a-text-normal">Apple 
iPhone 4S 8GB 3G Smartphone White - Sprint</h2> 
</a> 


可 以 看 出 ， 原 先 嵌 套 在 <h3> 标 签 内 部 的 <a> 标 签 现在 被 放 到 了 外 部 ， 而 原来 上 一 级 的 <h3> 变 成 <a> 标 签 下 一 级 的 <h2>， 另 外 这 些 标签 
HICSS class 也 变 了 。 骨 往 后 看 ， 产 品 相 天 的 元 泰 也 有 变化 。 比 如 ， 价 格 元 素 的 id 原 来 是 actualPriceValue， 现 在 是 priceblock_ourprice， MH 
页 面 结构 也 不 一 样 了 。 在 后 续 的 阅读 中 ， 请 读者 注意 这 些 变化 。 因 此 ， 原 书 中 的 XPath 表达 式 已 经 不 适用 于 现在 的 亚马逊 网 页 。 不 过 ， 修 改 原 
来 的 XPath 表达 式 并 不 难 ， 请 读者 自行 调试 代码 ， 以 获得 正确 的 结果 。 由 此 可 见 ， 由 于 网 页 的 不 断 优 化 改进 ， 比 如 ， 为 了 适应 不 同 终端 的 尺寸 
变化 、 页 面 改版 和 美化 ， 或 者 为 了 SEO 进行 的 优化 等 ， 对 网 络 抓 取 程序 也 需要 经 常 进行 测试 和 更 新 。 一 一 译 者 注 ) 


| <h3 class="newaps"> 

<a href="http://www.amazon.com/Apple-iPhone-8GB-White-Sprint/ 
dp/B0O074SQUBY/ref=sr 1 1?s=wireless&amp; ie=UTF8é&amp; qid= 
1389697991&amp; sr=1-lé&amp; keywords=Apple"> 


[一 


<span class="lrg bold">Apple iPhone 4 8GB (White) - Sprint 
</span> 
</a> 

</h3> 


ON A Aa WwW 





我 们 要 运用 这 些 信息 并 构建 两 个 XPath 表达 式 : //h3/a/span 用 于 标题 ，//h3/a 用 于 链接 。 由 于 已 经 获取 了 要 从 中 提取 数据 的 全 套 搜索 结果 
页 面 ， 所 以 我 们 可 以 把 提取 程序 包装 成 一 个 函数 ， 并 利用 lapply () 来 从 所 有 页 面 提 取信 息 。 首 先是 标题 : 上 


R> extractTitle <- function(x) { 
unlist (xpathApply (htmlParse (x), "//h3/a/span", xmlValue) ) 
} 


R> titles <- unlist(lapply(SearchPages, extractTitle) ) 
R> titles[1:3] 

[1] "Apple iPhone 4 16GB (Black) - CDMA Verizon" 

[2] "Apple iPhone 5s, Gold 16GB (Unlocked) " 

[3] "Apple iPhone 4 16GB (Black) - AT&T" 


然后 是 链接 : 


R> extractLink <- function(x) { 
unlist (xpathApply (htmlParse (x), "//h3/a", xmlAttrs) ) 
} 


R> links <- unlist(lapply(SearchPages, extractLink) ) 

R> links [1:3] 

[1] "http://www. amazon.com/Apple-iPhone-16GB-Black-Verizon/dp/ 
BOO4ZLV5UE/ref=sr 1 1/181-2441251-9365168?s=wireless&ie=UTF8&qid= 
1391539292&sr=1-1&keywords=Apple" 

[2] "http://www. amazon.com/Apple-iPhone-5s-Gold-Unlocked/dp/ 
BOOF3J4E5U/ref=sr 1 2/181-2441251-9365168?s=wireless&ie=UTF8&qid= 
1391539292&sr=1-2&keywords=Apple" 

[3] "http://www. amazon.com/Apple-iPhone-16GB-Black-AT/dp/ 
BOO4ZLVS5PE/ref=sr 1 3/181-2441251-9365168?s=wireless&ie=UTF8&qid= 
1391539292&sr=1-3&keywords=Apple" 


对 于 价格 、 消 费 者 评分 以 及 销售 排名 数据 的 检索 ， 搜 索 页 面 的 结构 很 难 利用 ， 或 根本 不 提供 我 们 寻找 的 信息 。 因 此 ， 我 们 必须 先 下 载 每 个 
产品 的 页 面 并 从 中 提取 信息 。 


为 了 避免 为 所 有 的 下 载 建 立新 的 网 络 连 接 ， 这 样 是 很 耗 时 的 ， 我 们 创建 了 一 个 句柄 ， 每 次 对 getURL () 的 调用 时 会 重复 使 用 它 。 此 外 ,我 
们 要 让 服务 器 每 隔 10 次 下 载 就 停顿 一 次 ， 所 以 我 们 把 链接 向 量 分 拆 成 大 小 为 10 的 分 块 ， 并 对 分 块 的 列表 进行 循环 。 忆 在 每 次 循环 中 ， 我 们 请 求 
10 个 页 面 并 把 它们 添加 到 我 们 创建 的 用 于 存储 的 对 象 里 ， 然 后 继续 下 一 个 分 块 。 最 后 但 也 同样 重要 的 是 ,我 们 要 解析 所 有 页面 ， 并 把 它们 保存 
在 另 一 个 列表 对 和 象 中 : 


R> chunk <- function(x, n) split(x, ceiling(seq along(x) /n) ) 
R> Links <- chunk(links, 10) 
R> curl <- getCurlHandle() 
R> ProductPages <- list() 
R> for (i in 1:length(Links)) { 
ProductPages <- c(ProductPages, getURL(Links[[1i]]) ) 
Sys.sleep (2) 


R> ParsedProductPages <- lapply(ProductPages, htmlParse) 


采集 了 所 有 产品 页 面 之 后 ， 我 们 就 可 以 进展 到 提取 产品 价格 的 操作 。 通 常 ， 一 个 页 面 上 会 显示 多 个 价格 : 标准 价 、 全 新 品 价格 、 二 手 或 翻 
新 品 的 价格 、 相 似 产 品 的 价格 。 使 用 “检查 元 素 ” 工 具 查 看 紧 挨 着 产品 标题 下面 的 价格 ,我 们 友 现 它 是 被 一 个 id 是 actualPriceValue 的 <span> 
节点 包 襄 起 来 的 。 转 化 出 来 的 XPath 表 达 式 是 //span[@id="actualPriceValue"]。 有 个 问题 是 某 些 商品 不 再 有 现货 ， 对 xpathApply () 的 调用 
会 给 这 些 丙 品 返 回 NULL。 对 于 这 些 商 品 ， 为 了 确保 我 们 记录 到 的 价格 是 NA 而 不 是 NULL， 我 们 要 检查 xpathApply() 调用 结果 的 长 度 。 如 果 
结果 的 长 度 为 0， 我 们 融 把 它 蔡 换 为 NA。 下 面 是 一 段 包含 我 们 查找 的 价格 信息 的 源 代码 片段 ， 以 及 提取 该 信息 的 R 代 码 : 


l <span id="actualPriceValue"><b class="priceLarge">$210.00</b></span> 





R> extractPrice <- function (x) { 
x <- xpathApply(x, "//span[@id=\"actualPriceValue\"]", xmlValue) 
x <- unlist (x) 
x <- str extract(x, "[[:digit:]]*\\.[[:digit:]]*") 
if (length(x) == 0) 
x <- NA 


return (as.numeric (x) ) 


} 
R> prices <- unlist(lapply(ParsedProductPages, extractPrice) ) 
R> names(prices) <- NULL 
R> prices [1:10] 
LLI 220.0 710.0 240.0 319.0 354.9 208.9 239.9 359.9 420.0 565.1 


看 起 来 上 面 的 方法 是 有 效 的 。 提 取 平 均 消 费 者 评分 (从 1 颗 星 到 5 颗 星 ) 的 方法 和 我 们 用 在 价格 上 的 程序 的 原理 相似 。 紧 挨 着 产品 标题 下 
面 ， 你 可 以 看 到 一 连 串 的 5 颗 星 ， 它 是 根据 消费 者 评分 进行 填 色 的 。 这 个 图 形 化 表征 包 早 在 一 个 <span> 节 点 里 ， 在 节点 的 title 属 性 里 包含 了 平 
均 评 分 。 我 们 利用 一 个 XPath 表达 式 //span[contains (@title, ‘out of 5stars') ]] 以 及 在 xpathApply () 里 对 xmlAttr () 的 调用 ， 把 该 信息 
提取 出 来 。 然 后 ， 再 利用 一 个 正则 表达 式 从 title 里 提取 出 评分 。 


Ww WN = 


=, 


<span class="SwSprite s star 4 0 " title="3.6 out of 5 stars"> 


<span>3.8 out of 5 stars</span> 


</span> 





R> extractStar <- function (x) { 
x <- xpathApply(x, "//span[contains(@title, ' out of 5 stars')]", 


xmlValue) 


if (length(x) == 0) { 
x <- NA 
} else { 


ee Ce 
x <- str extract(x, "[[:digit:]]\\.?[[:digit:]]?") 


} 


return (as.numeric (x) ) 


} 


R> stars <- unlist(lapply(ParsedProductPages, extractStar) ) 
R> names(stars) <- NULL 


R> stars[1:10] 
ol 3.6 3.5 3.7 3.2 Se Sat Bat J.B 3.5 4.0 


在 页 面 里 继续 往 下 ， 我 们 找到 了 一 个 叫 作 ProductDetails 的 区 块 。 在 这 个 区 块 中 ， 有 一 些 附加 的 信息 被 作为 单独 的 条 目 显示 ， 例 如 ， 亚 马 
逊 标准 识别 号 (Amazon Standard Identification Number, ASIN) ， 以 及 在 Cell Phones & Accessories 类 别 里 的 亚马逊 销售 排名 。 让 我 们 
先 提 取 包 衷 在 一 个 id 为 SalesRank 的 <li> 节 点 里 的 销售 排名 。 我 们 要 利用 XPath 提取 该 节点 ， 并 用 两 个 正则 表达 式 来 采集 该 排名 ， 第 一 个 表达 式 
会 查找 # 号 字符 后 面 跟着 数字 的 内 容 ， 另 一 个 则 会 删除 所 有 不 是 数字 的 内 容 。 


<li id="SalesRank"> 
<b>Amazon Best Sellers Rank:</b> #423 in Cell Phones & 
Accessories (<a href="http://www.amazon.com/gp/bestsellers/ 


wireless/ref=pd dp ts cps 1">See Top 100 in Cell Phones & 


Accessories</a>) 
</li> 





R> extractRank <- function (x) { 
x <- unlist(xpathApply(x, "//1li[@id='SalesRank']", xmlValue) ) 
x <— Er extract(z, "#.*2i0") 
x <- str_replace all(x, "[, in#]", 
EE (length(x) == 0) 
x <- NA 
return (as.numeric (x) ) 


" Wy 


} 


R> ranks <- unlist (lapply (ParsedProductPages, extractRank) ) 


R> names (ranks) <- NULL 


R> ranks [1:10] 
[1] 423 502 542 617 789 885 1277 1380 1268 1567 


下 一 步 ， 我 们 要 从 产品 页 面 提取 ASIN。 这 个 信息 会 在 后 期 帮助 我 们 去 掉 重 复数 据 并 识别 产品 。ASIN 是 在 一 个 列表 元 素 找到 的 ， 但 是 很 不 
这 个 元 素 没有 id 或 具体 的 class 可 以 用 来 识别 它 : 


| <li><b>ASIN:</b> BOOFBSOXGI</li> 


不 过 ,我 们 可 以 用 XPath 表 达 式 指定 它 的 位 置 ， 即 搜索 有 一 个 <li> 节 点 为 父 节 点 并 包含 文本 特征 ASIN 的 <b> 节 点 。 我 们 从 这 个 节点 沿 着 树 
结构 再 往 上 一 层 ， 选 取 它 的 父 忆 点 的 文本 : 


| //l1i/b[contains(text(), 'ASIN')]/../text() 


R> extractASIN <- function(x) { 
x <- xpathApply(x, "//1i/b[contains(text(), 'ASIN')]/../text()", 


xmlValue) 
x <- str _trim(unlist (x) ) 
ic (length(x) == 0) 
x <- NA 


return (x) 
R> asins <- unlist(lapply(ParsedProductPages, extractASIN) ) 
R> names(asins) <- NULL 
R> asins[1:5] 
[1] "BOO4ZLVSUE" "BOOF3U4E5U" "BOO4ZLVSPE" "BOOS98BY6W" "BOOSSSBOYO" 


最 后 ， 我 们 要 按照 与 之 前 相同 的 策略 来 提取 产品 型 号 : 


l <li><b>Item model number:</b> MC637LL/A</li> 


R> extractModel <- function(x) { 
xpath <- "//1li/b[contains(text(), 'Item model number')]/../text()" 
x <- xpathApply(x, xpath, xmlValue) 
x <- str _trim(unlist (x) ) 
if (length(x) == 0) 
x <- NA 
return (x) 


} 


R> models <- unlist(lapply(ParsedProductPages, extractModel)) 
R> models[1:5] 


[1] " A1349" T S57 " MC608LL/A" " iPhone 4" " MC924LL/A" 


[1] 这 样 做 的 好 处 是 把 看 似 比 较 复 杂 的 XPath 表达 式 保存 在 一 个 对 象 里 ， 以 后 对 它 的 引用 都 可 以 直接 用 该 对 象 代 替 ， 从 而 让 代码 保持 简洁 清晰 ， 也 
有 利于 在 表达 式 变化 的 情况 下 确保 一 致 性 。 


[2] 由 于 上 面 所 说 的 网 页 变化 ， 运 行 这 段 代 码 在 当前 的 Amazon 网 页 上 获得 的 结果 是 NULL。 





译 者 注 





译 者 注 


[3] 对 于 多 个 分 块 的 解决 方案 ， 可 以 参考 http://stackovetflow.com/a/3321659/1144966。 


16.2 HNE 


16.2.1 提取 有 天 多 个 生产 商 的 数据 


我 们 在 上 面 讲解 的 内 容 里 逐步 探查 了 数据 源 ， 并 制定 了 应 对 各 种 数据 采集 和 提取 问题 的 解决 方案 。 到 目前 为 止 ， 我 们 只 使 用 了 一 个 生产 商 


作为 例子 ， 尚 未 针对 其 他 生产 商 采集 数据 。 为 了 不 必 为 其 他 生产 商 而 重复 上 面 所 有 的 代码 ， 我 们 必须 把 前 面 的 解决 方案 转化 为 水 数 以 便于 重复 
使 用 。 这 些 消 数 可 以 通过 如 下 万 式 加 载 到 R 会 话 中 : 


R> source ("amazonScraperFunctions.r") 
加 载 了 该 函数 之 后 ， 我 们 来 设置 3 个 全 局 选项 : forceDownload 是 每 个 下 载 国 数 的 一 部 分 ， 把 它 设置 为 TRUE 会 让 这 些 国 数 重新 下 载 所 有 页 
面 ， 而 设置 为 FALSE 时 它们 会 检查 要 下 载 的 文件 是 否 已 经 仔 企 ， 如 果 仔 人 在 融 不 应 该 再 下 载 。KeyWords 是 一 个 生产 商 名 字 的 同 量 ， 它 会 在 所有 团 


数 里 重复 使 用 ， 定 义 要 采集 哪些 生产 商 的 手机 产品 详细 信息 。 人 参数 n 保 他 了 一 个 数字 ， 用 来 确定 要 采集 搜索 结果 页 面 的 数量 。 在 每 个 搜索 结果 页 
面 里 ， 我 们 会 得 到 24 个 产品 页 面 的 链接 : 


R> forceDownload <- FALSE 


R> KeyWords <- c("Apple", "BlackBerry", "HTC", "LG", "Motorola", 
"Nokia", "Samsung") 
R> n <- 5 


在 设置 好 全 局 选项 之 后 ， 我 们 可 以 利用 加 载 的 阔 数 来 采集 搜索 和 产品 页 面 ， 并 提取 要 理 找 的 信息 。 我 们 采用 的 步骤 和 之 前 探索 环节 及 用 的 
一 致 。 我 们 要 先 采 集 搜索 页 面 : 


R> SearchPageList <- NULL 
R> for (i in seq along(KeyWords)) { 

message (KeyWords [1] ) 

SearchPageList <- c(SearchPageList, getSearchPages (KeyWords [il], 
n, fLorceDownload) ) 


然后 提取 标题 和 产品 页 面 的 链接 : 


R> titles <- extractTitles (SearchPageList) 
R> links <- extractLinks (SearchPageList) 


再 下 载 产品 页 面 : 


R> brands <- rep(KeyWords, each = n * 24) 
R> productPages <- getProductPages(links, brands, forceDownload) 


并 进一步 提取 数据 : 


R> stars <- extractStars (productPages) 
R> asins <- extractASINs (productPages) 
R> models <- extractModels (productPages) 
R> ranks <- extractRanks (productPages) 
R> prices <- extractPrices (productPages) 


16.2.2 ”数据 清理 


虽然 我 们 已 经 顺便 做 了 很 多 数据 清理 工作 ， 比 如 ， 从 字符 捉 去 挥 开头 和 结尾 的 空格 、 提 取 数 字 并 把 它们 转换 为 数字 类 型 ， 但 是 在 开始 分 析 
数据 之 前 ,我们 还 有 一 些 任务 要 完成 。 首 先 ， 我们 要 把 这 些 信 息 重 构 为 一 个 数据 框 ， 然 后 尝试 尽 最 大 可 能 去 挥 重 复 的 产品 。 


第 一 项 任务 是 比较 简单 的 ， 因 为 信息 已 经 保存 在 相同 长 度 的 向 量 里 ， 没 有 采集 到 信息 的 情况 用 NA 来 表示 。 除 了 把 目前 采集 的 信息 进行 组 
合 ， 我 们 还 要 加 入 下 载 产品 页 面 的 名 字 ， 并 利用 它们 的 最 后 更 新 时 间 属 性 (file.info (fname) $ctime) 来 保存 数据 检索 的 时 间 : 


R> fnames <- str _c(brands, " ProductPage ", seq along (brands), ".html") 
R> phones <- data.frame(brands, prices, stars, ranks, 


R> asins, models, titles, links, 

R> fnames, 

R> timestamp = file.info( 

R> str _c("dataFull/", fnames) 
R> )Sctime, 

R> stringsAsFactors = FALSE) 


下 一 步 ， 我 们 只 保留 完整 的 记录 ， 排 除 押 有 AsIN 重 复 的 记录 ， 因 为 这 是 确保 我 们 没有 允 余 数据 的 最 简单 办 法 : 


R> phones <- phones[complete.cases(phones), | 
R> phones <- phones[!duplicated(phonesSasins), | 


16.3 ”图 形 分 析 


要 获取 价格 、 消 费 者 评分 和 销售 排名 等 分 布 情况 的 概况 ， 我 们 构建 了 一 个 图 表 ， 包 含 能 够 显示 所 有 这 3 个 变量 的 几 张 绘图 。 我 们 有 7 个 生产 
商 ， 还 要 加 上 一 个 “所 有 厂商 ”的 分 类 。 因 此 ， 我 们 一 次 性 指定 一 个 绘图 水 数 并 对 它 进行 重复 使 用 ， 绘 制 一 套 表达 所 有 3 组 信息 的 图 形 。 这 里 的 
主要 思路 是 利用 叉 持 不 同 灰 度 梯度 的 透明 标记 ， 对 产品 集中 的 地 方 产生 黑色 区 域 ， 对 产品 分 布 比较 稀 芷 或 不 仔 企 的 地 方 则 产生 淡 灰 或 白色 区 
域 。 由 于 销售 排名 只 有 序号 一 个 维度 ， 为 了 把 它们 直接 视 党 化 ， 我 们 还 颇 费 了 一 一 心思。 对 于 每 个 图 形 ， 我 们 拿 出 销售 排名 在 前 五 的 产品 ， 用 
不 同 于 前 两 个 指标 的 方式 把 它们 视 沉 化， 黑色 育 景 上 的 日 点 ， 搭 配 伸展 到 每 个 图 形 边 界 的 水 平和 垂直 续 。 


该 绘图 函数 接受 一 个 数据 框 作 为 输入 ， 并 由 此 开始 从 中 提取 3 个 变量 ， 把 数据 框 作为 输入 是 为 了 能 方便 地 重复 使 用 数据 的 子 集 ， 而 无 须 把 子 
集 重 复 3 次 。 下 一 步 ， 我 们 进行 一 次 虚拟 的 绘图 ， 它 具备 正确 的 x 和 y 范 围 ， 但 是 不 绘制 任何 数据 。 在 此 之 后 ,我们 加 入 一 个 修改 的 x 轴 和 辅助 
线 。 之 后 是 对 数据 的 绘制 ， 这 样 束 让 辅助 线 处 于 背景 位 置 。 米 用 这 个 程序 的 原因 是 我 们 想 加 入 辅助 线 但 不 希望 它们 盖 过 实际 数据 。 因 此 ， 我 们 
先进 行 虚拟 绘图 ， 绘 制 辅助 线 ， 之 后 再 绘制 实际 数据 。 对 于 绘图 点 的 颜色 ， 我 们 选择 黑色 ， 但 是 设置 其 alpha 值 为 0.2， 即 
rgb (0, 0, O, 0.2) . rgb () 函数 让 我 们 能 通过 不 同 强 度 红 、 绿 、 蓝 的 组 合 来 指定 颜色 。 第 4 个 参数 alpha 值 则 定义 了 产生 颜色 的 透明 度 ， 从 
而 支持 绘制 市 有 透明 度 的 标记 。 最 后 但 也 同样 重要 的 是 ,我们 要 为 销售 排名 序号 最 小 的 (也 束 是 销售 排名 最 高 的 ) 5 个 产品 构建 一 个 索引 ， 并 在 
它们 的 坐标 处 绘制 水 平和 垂直 线 ， 以 及 把 它们 和 其 他 产品 区 分 开 的 小 昌 点 。 


R> plotResults <- function(X, title="") { 
Prices <- XS$prices 
Stars <- XSstars 
Ranks <- XSranks 


plot (Prices, Stars, pch = 20, cex=10, col = "white", 
ylim = c(1,5), xlim = c(0, 1000), main = title, 
cex.main = 2, cex.axis = 2, xaxt = "n") 


axis(1, at=c(0, 500, 1000), labels = c(0, 500, 1000), cex.axis=2) 
# add guides 

abline (v=seq(0, 1000, 100), col = "grey") 

abline (h=seq(0, 5, 1), col = "grey") 
# adding data 

points (Prices, Stars, col=rgb(0, 0, 0, 0.2), pch = 20, cex = 7) 
# mark 5 highest values 

index <- order(Ranks) [1:5] 

abline(v = Prices[index], col="black") 

abline(h Stars [index], col="black") 

points (Prices [index], Stars[index], col = rgb(1, 17171); pch = 20) 


我 们 的 工作 成 果 如 图 16-2 所 示 。 
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图 16-2 “手机 的 价格 、 消 费 者 评分 和 畅销 排名 。 每 个 图 中 的 黑 点 标记 每 个 产品 所 处 的 位 置 ， 带 有 水 平和 垂直 线 的 白 点 标记 最 畅销 的 5 个 产品 


关于 消费 者 满意 度 ， 最 有 意思 的 现象 是 ， 有 些 差异 并 不 是 体现 在 消费 者 评分 的 水 平 上 ， 而 是 在 其 分 布 范围 。 例 如 ， 对 于 Apple 的 产品 ， 消 费 
者 的 满意 度 看 起 来 是 协调 一 致 的 ， 而 对 于 Motorola 产 品 的 评分 范围 就 大 得 多 ， 这 暗示 的 是 在 Motorola 的 产品 体系 中 ， 质 量 和 /或 特性 的 吸引 力 
的 确 有 很 大 的 差异 。 另 一 个 结果 是 最 畅销 产品 通常 处 于 消费 者 满意 度 较 高 的 区 段 ， 除 了 Nokia， 它 的 某 个 畅销 型 号 的 消费 者 满意 度 是 硬 撑 在 中 
等 水 平 线 上 的 。 


16.4 ZOETE 


16.4.1 ”总体 思路 


到 这 个 阶段 ， 已 经 采集 了 所 有 需要 的 数据 并 得 出 了 结论 ， 我 们 就 可 以 结束 本 案例 分 析 了 。 不 过 也 许 我 们 要 考虑 一 下 未 来 的 应 用 和 后 续 的 扩 
展 。 也 许 我 们 想 要 追踪 价格 和 客户 评分 随时 间 的 变化 情况 ， 并 重复 数据 来 集 过 程 。 也 许 我 们 会 想 加 入 其 他 产品 页 面 或 采集 其 他 生产 商 的 数据 。 
我 们 的 数据 库 会 增长 得 越 来 越 大 ， 变 得 更 加 复杂 ， 某 天 会 意识 到 ， 我 们 并 不 了 解 所 有 的 .Rdata 和 HTMLx 文 件 是 怎么 结合 起 来 的 。 也 许 我 们 应 该 
为 将 来 的 应 用 创建 一 个 按照 我 们 的 需求 裁剪 好 的 数据 库 。 


在 本 节 ， 我 们 会 创建 一 个 SQLite 数 据 库 ， 用 它 存放 我 们 迄今 提取 的 数据 ， 并 留 出 加 入 更 多 信息 的 空间 。 这 些 所 谓 的 更 多 信息 会 是 在 下 一 个 
案例 分 析 里 要 来 集 、 存 储 和 分 析 的 产品 评论 。 最 后 ， 我 们 要 得 到 能 够 按 需 调用 的 3 个 消 数 : 一 个 负责 创建 数据 库 并 定义 其 结构 ， 一 个 负责 重 置 所 
有 内 容 并 重新 启动 ， 一 个 用 来 在 该 数据 库 里 保存 米 集 的 数据 。 让 我 们 先 加 载 必 要 的 组 件 : 


R> library (RSQLite) 
R> library (stringr) 


并 建立 到 该 数据 库 的 连接 。 注 意 ， 在 RSQLite 里 为 一 个 还 不 存在 的 数据 库 建立 连接 ， 意 味 着 该 组 件 会 根据 dbConnect () 提供 的 命名 创建 一 个 
新 的 数据 库 ， 在 本 例 中 就 是 amazon-Productlnfo.db: 

R> sqlite <- dbDriver ("SQLite") 

R> con <- dbConnect (sqlite, "amazonProductInfo.db") 

建 好 了 到 该 数据 库 的 连接 ， 在 把 所 有 数据 保存 在 一 个 表 里 之 前 ， 先 思考 一 下 数据 库 的 设计 会 是 一 个 好 主意 ， 它 可 以 避免 后 期 出 现 一 些 问 
题 。 先 再 看 一 下 我 们 的 数据 ， 概 括 一 下 我 们 手头 有 些 什 么 : 


R> names (phones) 


[1] "brands" "prices" "stars" "ranks" "asins" 

[6] "models" "titles" "links" "fnames" "timestamp" 
R> phones[1:3, 1:7] 

brands prices stars ranks asins models 
1 Apple 210 35 423 BOO4ZLV5UE A1349 
2 Apple 710 KC 502 BOOF3JU4E5U 5s 
3 Apple 240 = a 542 BOO4ZLV5PE MC608LL/A 

titles 


1 Apple iPhone 4 16GB (Black) - CDMA Verizon 
Apple iPhone 5s, Gold 16GB (Unlocked) 
3 Apple iPhone 4 16GB (Black) - AT&T 


N 


到 目前 为 止 ， 我 们 的 工作 是 采集 天 于 手机 型 号 的 信息 ， 所 有 的 数据 都 存放 在 了 一 张 表 里 。 大 部 分 情况 下 ， 当 在 一 个 统计 软件 里 对 数据 进行 
分 析 和 绘图 时 ， 把 所 有 数据 放 在 一 张 表 里 是 方便 的 ， 但 是 从 长 期 来 看 ， 会 给 数据 管理 工作 市 来 不 必要 的 复杂 性 。 假 如 下 载 了 另 一 组 产品 信息 ， 
我 们 可 以 直接 把 这 些 信息 添加 到 已 经 存在 的 数据 框 里 。 但 久而久之 产品 型 号 和 ASIN 束 会 积 罕 大 量 的 见 余 ， 为 了 保存 这 7 个 生产 商 的 名 字 已 经 占 
用 了 超过 600 行 。 另 一 个 要 考虑 的 情况 是 规划 对 数据 集 的 扩展 。 当 我 们 给 数据 加 入 评价 信息 时 ， 通 单 对 于 一 个 产品 会 有 多 条 评论 ， 这 会 让 数据 脖 
胀 得 更 加 严重 。 如 果 要 进一步 用 其 他 未 知 的 数据 对 现 有 数据 集 进行 扩展 ， 关 于 见 余 和 映射 的 更 多 问题 束 会 浮现 出 来 。 为 了 预防 这 些 及 其 类 似 的 
问题 ， 最 好 是 把 数据 分 拆 成 多 个 表 ， 关 于 在 数据 库 里 分 拆 数据 的 标准 程序 ， 请 参阅 7.2.2 节 。 


16.4.2 用 于 存储 的 表 的 定义 


由 于 我 们 的 数据 是 关于 手机 型 号 的 ， 所 以 应 该 先 创建 一 个 表 ， 保 存 手机 型 号 的 唯一 标识 符 。ASIN 已 经 提供 了 这 样 的 一 个 标识 答 ， 所 以 我 们 
创建 一 个 表 ， 只 保存 这 些 字符 串 ， 并 在 之 后 把 所 有 其 他 数据 都 通过 外 键 天 联 到 这 个 变量 。 另 一 个 我 们 会 加 入 的 特性 是 UNIQUE 子 句 ， 它 能 确保 
在 该 列 中 没有 重复 数据 ， 这 种 重复 的 情况 可 能 发 生 在 我 们 对 已 有 的 手机 型 号 采集 新 数据 的 时 候 ， 那 么 我 们 会 在 数据 库 中 尝试 加 入 已 经 存在 的 
ASIN， 这 样 束 会 产生 错误 ,我 们 要 利用 ON CONFLICT IGNORE 通 知 数据 库 ， 当 某 个 SQL 操 作 违 反 了 唯一 性 (UNIQUE) 限定 条 件 时 ， 不 需要 
报告 错误 ， 而 是 直接 忽略 它 。if (! dbExistsTable (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15597/OEBPS/Text/...) ) 这 部 分 语句 也 是 为 了 预防 出 错 的 ， 如 果 该 表 已 经 存在 ， 函 数 
残 不 上 友 达 该 SQL 操作 : 


R> createPhones <- function(con) { 
if (!dbExistsTable (con, "phones") ) { 
sql <- "CREATE TABLE phones ( 
id INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT, 


asin CHAR, 
UNIQUE (asin) ON CONFLICT IGNORE) ;" 


dbGetQuery (con, sql) 
telse{ 
message("table already exists") 
} 


我 们 设置 了 类 似 的 国 数 createProducers () 、createModels () 和 createLinks () ， 用 于 为 生产 商 、 手 机 型 号 和 链接 分 别 定义 数据 表 。 
这 些 闵 数 可 以 在 本 章 的 补充 材料 里 查看 。 


设置 好 了 为 ASIN、 人 生产 商 、 手 机 型 号 和 链接 定义 的 数据 表 并 确保 其 中 不 会 加 入 元 余 信 息 的 函数 之 后 ， 现 在 我 们 继续 处 理 存 放 产 品 的 具体 数 
据 的 表 。 在 该 表 中 应 该 保存 价格 、 平 均 消 费 者 评分 、 销 售 榜 排名 、 产 品 页 面 标题 、 下 载 文件 的 文件 名 以 及 一 个 时 间 戳 。 给 该 表 加 入 一 个 存放 时 
间 戳 的 列 ， 其 作用 是 支持 对 同一 个 手机 型 号 多 次 进行 信息 的 下 载 ， 同 时 区 分 信息 获取 的 时 间 。 为 了 把 该 表 的 各 行 关联 到 其 他 信息 ， 我 们 进一步 
给 手机 、 生 产 商 、 型 号 和 链接 表 都 加 入 了 id 列 。 外 键 定 义 的 ON UPDATE CASCADE 部 分 确保 对 主键 的 修改 会 传递 给 外 键 。 此 外 ， 我 们 还 利用 了 
一 个 UNIQUE 子 句 确保 不 加 入 重复 的 行 : 


R> createItems <- function(con) { 
if (!dbExistsTable(con,"items") ) { 
sql <- "CREATE TABLE items ( 
id INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT, 
price REAL, 
stars REAL, 
rank INTEGER, 
title TEXT, 
fname TEXT, 
time TEXT, 
phones id INTEGER NOT NULL REFERENCES phones (id) 
ON UPDATE CASCADE, 
producers id INTEGER NOT NULL REFERENCES producers (1d) 
ON UPDATE CASCADE, 


models id INTEGER NOT NULL REFERENCES models (id) 
ON UPDATE CASCADE, 
links id INTEGER NOT NULL REFERENCES links (id) 


ON UPDATE CASCADE, 
UNIQUE ( 
price, stars, rank, time, 
phones id, producers id, models id, links id 
) ON CONFLICT IGNORE) ;" 
dbGetQuery(con, sql) 


}else{ 
message ("table already exists") 


现在 ， 我 们 已 经 为 迄今 为 止 采 集 的 所 有 数据 创建 了 表 。 


16.4.3 ”考虑 未 来 仔 储 的 数据 表 定 义 


下 面 一 些 表 是 规划 用 于 保存 下 一 个 案例 分 析 采 集 的 评论 信息 的 。 我 们 要 先 考虑 一 个 用 于 存放 评论 信息 的 表 ， 里 面包 含 的 列 会 对 应 AsIN、 评 
论 者 给 出 的 星星 数 、 认 为 评论 有 用 或 无 用 的 人 数 以 及 两 者 的 总 和 、 评 论 上 友 表 的 日 期 、 评 论 的 标题 、 实 际 的 评论 文字 : 


R> createReviews <- function(con) { 
if (!dbExistsTable(con,"reviews") ) { 
sql <- "CREATE TABLE reviews ( 
id INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT, 
asin TEXT. 
stars INTEGER, 
helpfulyes INTEGER, 
helpfulno INTEGER, 
helpfulsum INTEGER, 


date TEXT, 
title TEXT, 
text TEXT, 


UNIQUE (asin, stars, date, title, text) ON CONFLICT IGNORE) ;" 
dbGetQuery(con, sql) 
}else{ 
message("table already exists") 


| 


另外 一 个 表 保存 对 于 某 个 型 号 的 所 有 评论 的 元 信息 ， 其 中 包含 的 列 对 应 了 ASIN、 该 产品 分 别 获得 从 一 颗 星 到 五 颗 星 的 数量 : 


R> createReviewsMeta <- function(con) { 
if (!dbExistsTable(con, "reviewsMeta") ) { 
sql <- "CREATE TABLE reviewsMeta ( 
id INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT, 


asin TEXT, 

one INTEGER, 
two INTEGER, 
three INTEGER, 
four INTEGER, 
five INTEGER, 


UNIQUE (asin) ON CONFLICT REPLACE) ;" 
dbGetQuery(con, sql) 
Jelse{ 
message("table already exists") 
} 


16.4.4 方便 数据 访问 的 视图 定义 


虽然 我 们 创建 的 这 些 表 适 合 一 致 和 高 效 地 保存 手机 型 号 及 其 评论 的 数据 ， 但 是 为 了 检索 数据 ， 我 们 可 能 需要 能 更 方便 和 自动 化 地 根据 具体 
目的 把 所 需 数据 合并 到 一 起 的 手段 。 因 此 ， 我 们 要 创建 另外 一 组 在 数据 库 术 语 里 叫 作 视图 (view) 的 虚拟 表 。 第 一 个 视图 是 为 了 提供 有 关 商 品 
的 所 有 信息 的 ， 因 此 它 会 利用 JOIN 把 有 关 商 品 、 生 产 商 、 型 号 以 及 手机 的 表 合 并 到 一 起 : 


R> createViewItemData <- function(con) { 
if (!'dbExistsTable(con, "ItemData") ) { 
sql <- "CREATE VIEW ItemData AS 

SELECT items.id as itemid, price as itemprice, 


stars as itemstars, rank as itemrank, 

title as itemtitle, model, phones.asin as asin, 
producer from items 

JOIN producers on producers id = producers.id 


JOIN models on models id = models.id 
Join phones on phones id = phones.id;" 
dbGetQuery(con, sql) 


}else{ 
message ("table already exists") 
} 


下 一 个 视图 提供 关于 评论 的 数据 : 


R> createViewReviewData <- function(con) { 
if (!dbExistsTable (con, "ReviewData") ) { 
sql <- "CREATE VIEW ReviewData AS 
SELECT phones.asin, reviews.id as reviewid, 
stars as reviewstars, one as allrev onestar, 
two as allrev twostar, three as allrev threestar, 
four as allrev fourstar, five as allrev fivestar, 
helpfulyes, helpfulno, helpfulsum, date as reviewdate, 
title as reviewtitle, text as reviewtext 
FROM phones 
JOIN reviews on phones.asin=reviews.asin 
JOIN reviewsMeta on phones.asin=reviewsMeta.asin;" 
dbGetQuery(con, sql) 
}else{ 
message("table already exists") 
} 


最 后 但 也 同样 重要 的 是 ， 我 们 要 通过 合并 (JOIN) ReviewData 和 ltemData 创 建 一 个 视图 ， 把 我 们 手头 的 所 有 数据 合并 到 一 个 大 表 里 : 


R> createViewAllData <- function(con) { 
if (!dbExistsTable(con,"AllData") ) { 
sql <- "CREATE VIEW AllData AS 
SELECT * FROM ItemData 
JOIN ReviewData on ItemData.asin = ReviewData.asin" 
dbGetQuery(con, sql) 
telse{ 
message ("table already exists") 
} 


} 


创建 定义 有 关 产 品 数据 和 评论 数据 的 表 以 及 方便 数据 检索 的 视图 之 后 ， 我 们 可 以 把 所 有 这 些 冰 数 包 半 到 一 个 叫 defineDatabase () 的 函数 
里 并 执行 它 : 


R> defineDatabase <- function(con) { 
createPhones (con) 
createProducers (con) 
createModels (con) 
createLinks (con) 


createItems (con) 
createReviews (con) 
createReviewsMeta (con) 
createViewlItemData (con) 
createViewReviewData (con) 
createViewAl1Data (con) 


} 


为 了 能 逆转 这 个 流程 ， 我 们 还 要 定义 名 为 dropAll () 的 函数 ， 它 会 询问 数据 库 那 些 数据 表 和 视图 是 存在 的 ， 并 发送 相应 的 DROP TABLE 和 
DROP VIEW 语句 ， 让 数据 库 删 除 它 们 。 不 过 要 注意 ， 这 个 函数 必须 小 心 使 用 ， 因 为 对 它 的 调用 会 导致 于 失 所 有 数据 : 


R> dropAll <- function(con) { 
sql <- "select 'drop table ' || name || ';' from sqlite master 
where type = ‘'table';" 
tmp <- grep("sqlite sequence",unlist (dbGetQuery(con,sql)), 
value=T, invert=T) 


for(i in seq along(tmp)) dbGetQuery(con,tmp [i] ) 
sql <- "select 'drop view ' || name || 


';' from sqlite master 
where type = 'view';" 


tmp <- grep("sqlite sequence",unlist (dbGetQuery(con,sql)), 
value=T, invert=T) 


for(i in seq along(tmp)) dbGetQuery(con,tmp[1i] ) 


16.4.5 ”保存 数据 的 函数 


到 目前 为 止 ， 我 们 已 经 构建 了 定义 数据 库 结 构 的 函数 ， 但 是 根本 还 没有 数据 加 入 数据 库 中 。 在 下 面 的 部 分 ， 我 们 会 定义 一 些 冰 数 ， 它 们 接 
受 我 们 的 手机 数据 (phones 对 象 ) 作为 参数 ， 并 把 它 的 每 个 信息 保存 到 合适 的 地 方 。 我 们 在 后 续 会 把 它们 全 部 放 到 一 个 包 效 消 数 里 ， 让 该 包装 
函数 在 必要 时 处 理 数据 库 的 创建 和 定义 所 有 表 ， 并 适当 地 保存 我 们 传递 给 它 的 数据 。 


让 我 们 先 从 一 个 保存 ASIN 的 函数 开始 。 虽 然 我 们 可 以 直接 把 所 有 ASIN 发送 给 数据 库 并 让 它 来 处 理 其 他 事情 ， 要 记 住 手机 信息 表 的 设计 会 忽 


略 插入 重复 ASIN 的 兰 试 ， 不 过 更 快 的 方法 是 先 查 询 有 哪些 AsIN 已 经 仓 放 在 数据 库 里 ， 再 存 入 那些 还 不 他 在 的 。 对 于 数据 库 里 还 不 存在 的 每 个 
AsIN， 我 们 创建 一 条 SQL 语句 来 把 新 的 AsIN 加 入 该 数据 库 ， 然 后 友 出 该 语句 : 


R> addASINs <- function(x, con) { 
message ("adding phones ...") 
asinsInDB <- unlist (dbReadTable(con,"phones") ["asin"] ) 
asinsToAdd <- unique (xSasins[! (xSasins %in% asinsInDB) ] ) 
for(i in seq along(asinsToAdd) ) { 
sql <- str_c("INSERT INTO phones (asin) VALUES ('", 
asinsToAdd[i], "') ;") 
dbGetQuery(con, sql) 


加 入 生产 商 (addProducers () ) 、 手 机 型 号 (addModels () ) 以 及 链接 (addLinks () ) 的 函数 遵循 完全 相同 的 逻辑 ， 并 且 在 本 章 
的 补充 材料 里 有 相应 的 文档 。 


下 一 个 函数 要 把 剩 下 的 天 于 具体 产品 的 数据 加 到 数据 库 里 。 首 先 ， 我 们 从 手机 、 生 产 商 、 手 机 型 号 和 链接 表 里 读 取 数 据 ， 获 得 当前 的 id。 
之 后 ， 我 们 遍历 phones 手 机 信息 表 的 所 有 行 ， 从 价格 、 星 星 数 、 销 售 排名 、 标 题 、 文 件 名 和 时 间 戳 变量 提取 信息 。 接 下 来 的 4 行 代码 会 把 当前 
数据 行 里 的 ASIN 和 在 手机 信息 表 里 存 放 的 ASIN 进 行 匹 配 ;， 把 当前 的 生产 商 和 生产 商 表 里 存放 的 进行 匹配 ;当前 手机 型 号 和 手机 型 号 表 进行 匹 
Ac; 当前 链接 和 链接 表 进行 匹配 ， 每 个 匹配 都 检索 出 对 应 的 id。 然 后 所 有 这 些 信息 合并 到 一 个 SQL 语 句 ， 该 语句 会 要 求 把 这 些 数据 加 入 数据 库 中 
的 商品 表 。 最 后 但 同样 重要 的 是 ， 把 该 查询 语句 发 送 到 数据 库 : 


R> addItems <- function(x, con) { 


message ("adding items ... ") 
# get fresh infos from db 
Phones <- dbReadTable(con, "phones") 
Producers <- dbReadTable(con, "producers") 
Models <- dbReadTable(con, "models") 
Links <- dbReadTable(con, "links") 
for(i in seq along(x[,1])) { 
priceDB <- xS$price [i] 
starsDB <- xSstars [i] 
rankDB <- xSrank [il] 
titleDB <- str_replace(xS$titles[iJ], "'", IMETU] 
fnameDB <- xSfname [i] 
timeDB <- xStimestamp [i] 


phonesDB <- PhonesSid[PhonesSasin %in% xSasin[i] ] 
producersDB <- ProducerssSid[ProducersSproducer %in% xS$brand [i] ] 
modelsDB <- ModelssSid[ModelsSmodel tint xSmodel [i] ] 
linksDB <- LinksSid[LinksSlink tint xSlink[i] ] 
sql <- str_c(" INSERT INTO items 
(price, stars, rank, title, fname, time, 
phones id, producers id, models id, links id) 
VALUES 
‘sua 
str c( priceDB, starsDB, rankDB, 
titleDB, fnameDB, timeDB, 
phonesDB, producersDB, modelsDB, linksDB, 
sep="", '"), 
ele t 
dbGetQuery(con, sql) 


正如 前 面 所 声明 的 ， 我 们 最 终 定义 了 一 个 包 交 函数 ， 它 能 建立 到 数据 库 的 链接 ， 根 据 需要 定义 表 结 构 、 添 加 数据 、 在 完成 操作 后 再 关闭 到 
数据 库 的 链接 : 


R> saveInDatabase <- function(x, DBname) { 
sqlite <- dbDriver ("SQLite") 
con <- dbConnect (sqlite, DBname) 
defineDatabase (con) 
addASINs (x, con) 
addProducers (x, con) 
addModels (x, con) 
addLinks (x, con) 
additems (x, con) 
dbDisconnect (con) 


16.4.6 ”数据 存储 和 检查 


现在 我 们 可 以 把 数据 写 进 数 据 库 : 


R> saveInDatabase (phones, "amazonProductInfo.db") 


再 建立 一 个 到 它 的 连接 : 


R> sqlite <- dbDriver ("SQLite") 
R> con <- dbConnect (sqlite, "amazonProductInfo.db") 


并 测试 数据 是 否 真 的 正确 保存 了 : 


R> res <- dbReadTable(con, "phones") 
R> dim(res) 
L1] 623 2 
R> res[1:3, ] 
id asin 
1 365 BOOOSFCAJA 
2 390 BOOOCOVMYK 
3 410 BOOOESS50AI 


第 17 草 分 析 产 品评 论 里 的 情绪 


在 第 16 章 ， 我 们 已 经 收集 了 关于 亚马逊 网 站 上 一 些 手机 的 几 种 结构 化 信息 。 我 们 分 析 了 手机 的 结构 化 特性 (其 中 最 重要 的 是 手机 的 成 本 ) 
是 如 何 与 消费 者 评分 关联 的 。 到 目前 为 止 ， 我 们 忽略 了 一 个 关于 手机 的 重要 信息 源 ， 即 消费 者 的 文字 评价 。 在 本 章 里 ， 我 们 要 调研 是 否 能 利用 
对 产品 的 评论 来 测算 消费 者 的 评分 。 这 个 练习 可 能 看 起 来 特别 学 术 化 ， 因 为 我 们 已 经 得 到 了 更 结构 化 的 以 星星 数量 形式 表达 的 消费 者 评分 信 
息 。 不 过 ， 在 很 多 情况 下 ， 这 类 结构 化 的 消费 者 评论 信息 是 无 从 获取 的 。 如 果 能 从 纯 文本 里 复原 消费 者 的 评分 ， 我 们 手头 束 有 了 一 个 强 有 力 的 
工具 ， 可 以 用 来 在 其 他 应 用 里 采集 消费 者 的 情绪 。 


实际 上 ， 虽 然 结构 化 的 消费 者 评分 给 生产 商 提供 了 极其 有 用 的 反馈 ， 但 是 在 文字 评论 里 的 信息 会 详细 得 多 。 考 虑 一 下 我 们 在 当前 应 用 中 调 
研 的 对 手机 的 产品 评论 案例 。 除 了 评论 产品 本 身 ， 消 费 者 还 针对 产品 中 他 们 喜欢 或 不 喜欢 的 具体 部 分 以 及 发 现 有 缺陷 的 地 方 进行 了 详细 的 评 
议 。 有 人 研究 者 已 经 在 及 集 这 些 更 具体 的 评论 方面 进行 了 一 些 宇 试 (Meng 2012; Mukherjee and Bhattacharyya 2012) 。 在 本 练习 中 ， 我 们 
的 目标 更 为 低调 。 我 们 要 调研 是 否 能 根据 文本 评论 来 测算 评论 者 对 某 个 产品 给 出 的 星星 数量 。 为 此 ， 我 们 要 运用 第 10 章 介绍 的 文本 挖掘 功能 。 


在 17.2 节 会 移 从 该 网 页 采集 评论 。 我 们 下 载 相 应 的 文件 并 把 它们 保存 在 之 前 创建 好 的 数据 库 里 。 在 本 章 的 分 析 部 分 ， 我 们 先 评估 利用 基于 
字典 的 方法 把 评论 分 类 为 正面 或 负面 的 可 能 性 。 有 研究 者 已 经 把 几 个 英语 词典 里 边 的 词 条 分 类 为 表示 正面 或 负面 情绪 。 我 们 要 检查 在 评论 里 的 
这 类 情绪 信号 是 人 否 足 以 正确 地 对 评论 进行 分 类 。 在 最 后 一 步 ， 我 们 要 利用 文本 挖掘 技术 ， 基 于 评论 者 给 出 的 星星 数 给 评论 加 上 标记 。 我 们 基于 
一 半数 据 来 训练 算法 ， 对 另 一 半 进 行 测算 ， 然 后 把 测算 结果 和 实际 评分 的 星星 数 进行 比较 。 
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实际 上 ， 虽 然 结构 化 的 消费 者 评分 给 生产 商 提供 了 极其 有 用 的 反馈 ， 但 是 在 文字 评论 里 的 信息 会 详细 得 多 。 考 虑 一 下 我 们 在 当前 应 用 中 调 
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议 。 有 人 研究 者 已 经 在 玉 集 这 些 更 具体 的 评论 方面 进行 了 一 些 宇 试 (Meng 2012; Mukherjee and Bhattacharyya 2012) 。 在 本 练习 中 ， 我 们 
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在 17.2 节 会 移 从 该 网 页 采集 评论 。 我 们 下 载 相 应 的 文件 并 把 它们 保存 在 之 前 创建 好 的 数据 库 里 。 在 本 章 的 分 析 部 分 ， 我 们 先 评估 利用 基于 
字典 的 方法 把 评论 分 类 为 正面 或 负面 的 可 能 性 。 有 研究 者 已 经 把 几 个 英语 词典 里 边 的 词 条 分 类 为 表示 正面 或 负面 情绪 。 我 们 要 检查 在 评论 里 的 
这 类 情绪 信号 是 人 否 足 以 正确 地 对 评论 进行 分 类 。 在 最 后 一 步 ， 我 们 要 利用 文本 挖掘 技术 ， 基 于 评论 者 给 出 的 星星 数 给 评论 加 上 标记 。 我 们 基于 
一 半数 据 来 训练 算法 ， 对 另 一 半 进 行 测算 ， 然 后 把 测算 结果 和 实际 评分 的 星星 数 进行 比较 。 


17.2 KRAE 


作为 第 一 步 ， 我 们 要 从 亚马逊 的 网 站 采集 额外 的 数据 ， 即 文本 的 产品 评论 。 我 们 建立 一 个 到 第 16 章 创建 的 数据 库 的 连接 。 该 数据 库 包 含 了 
有 关 手 机 、 价 格 和 结构 化 特性 的 信息 ， 以 及 用 户 给 出 的 平均 星星 数量 。 我 们 要 从 该 网 站 下 载 每 条 评论 ， 从 源 代码 中 提取 文本 评论 和 关联 的 星星 
数 ， 并 把 这 部 分 信息 添加 到 数据 库 的 一 个 新 表 里 。 


17.2.1 下载 文件 


让 我 们 先 加 载 在 本 节 的 后 续 操 作 中 所 必需 的 组 件 。 对 于 抓 取 和 提取 任务 ， 我 们 需要 stringr、XML 和 RCurl。 我 们 还 要 加 载 RSQLite 组 件 ， 以 
获取 第 16 章 创建 的 数据 库 里 的 信息 ， 并 把 新 的 信息 添加 到 已 有 的 数据 库 里 。 


Rs library (stringr) 
R> library (XML) 

R= library (RCurl1) 
R> library (RSQLite) 


我 们 要 利用 dbDriver () 和 dbConnect () 函数 创建 一 个 到 该 数据 库 的 连接 。 


R> sqlite <- dbDriver ("SQLite") 
R> con <- dbConnect (sqlite, "amazonProductInfo.db") 


现在 我 们 可 以 利用 dbGetQuery () 从 该 数据 库 获 取 数 据 了 。 我 们 需要 的 是 手机 的 ASIN (Amazon Standard Identification Number) 以 
及 手机 产品 页 面 之 一 的 名 称 。 因 为 这 些 信 息 保存 在 数据 库 的 不 同 表 里 ， 我 们 要 利用 JOIN 来 把 它们 合并 在 一 起 ， 其 中 手机 信息 表 (phones) 的 id 
要 和 商品 表 (items) 的 phones id 相 匹配 。 


R> sgl <- "SELECT phones.asin, 
JOIN items 

ON phones.id=phones id;" 
R> phonesData <- dbGetQuery (con, sql) 


R> 


R> head (phonesData) 


asin 
1 BOO4ZLV5UE 
2 BOOF3U4E5U 
3 BOO4ZLV5PE 
4 BOOS9S8BY6W 
5 BOO5SSSBOYO 
6 BOO4ZLYBO4 


Apple 
Apple 
Apple 
Apple 
Apple 
Apple 


Product Page 
Product Page 
Product Page 
Product Page 
Product Page 
Product Page 


items.fname FROM phones 


1 
2 
e 
4 
= 
6 


fname 
.html 
-html 
html 
.html 
-html 
.html 


我 们 通过 dir.create () 创建 用 于 保存 下 载 的 评论 页 面 的 dataReviews 文 件 夹 (如 果 它 还 不 存在 ) ， 并 把 工作 目录 改 成 这 个 文件 夹 。 


R> if(!file.exists("dataReviews")) dir.create("dataReviews") 
R> setwd("dataReviews") 


到 评论 页 面 的 链接 是 我 们 在 前 一 个 案例 分 析 里 下 载 的 产品 页 面 的 一 部 分 ， 
些 文 件 ， 融 能 提取 出 评论 页 面 的 链接 。 


R> productPageFiles <- str c(". 


并 保存 在 dataFull 里 。 因 此 ， 我 们 可 以 通过 htmlParse () 读 取 这 


./dataFull/", phonesDataSfname) 
R> productPages <- lapply(productPageFiles, htmlParse) 


我 们 还 要 编写 一 个 为数 用 来 从 手机 的 页 面 采 集 其 评论 的 链接 。 这 是 通过 寻找 所 有 包含 文本 customer review 的 <a> 节 点 来 进行 的 。 我 们 可 
#5 


以 很 大 方 地 丢弃 细微 的 错误 数据 ， 因 为 评论 的 数量 比 我 们 在 本 应 用 里 有 


望 能 分 析 到 的 还 要 多 得 多 。 具 体 地 说 ,我 们 要 忽略 长 度 为 0 的 结果 ， 并 


给 它们 一 个 NA 值 ， 对 于 创建 新 评论 的 链接 也 是 如 此 处 理 。 我 们 还 要 忽略 结果 向 量 的 名 字 并 返回 结果 。 


R> extractReviewLinks <- function(x) { 


R> X <- xpathApply (x, 

R> 

R> if(length(x) == 0) x <- NA 
R> if (str detect (x, 

R> names (x) <- NULL 

R> x 

R> } 


"//a[contains (text (), 'customer review')]/@href", 
as.character) [[1]] 


"create-review") & !is.na(x)) x <- NA 


我 们 要 把 extractReviewLinks () 函数 运用 到 所 有 解析 完 侍 的 手机 产品 页 面 ， 并 把 结果 展 平 (unlist) ， 创 建 一 个 评论 链接 的 向 量 。 


R> reviewLinks <- unlist(lapply(productPages, extractReviewLinks) ) 


为 了 对 缺少 评论 链接 的 网 页 进行 人 工 检查 ,我们 要 把 这 些 产 品 页 面 的 名 字 输 出 到 控制 台 。 我 们 发 现 它们 全 都 是 一 条 评论 都 没有 的 产品 。 


R> noLink <- NULL 
R> for(i in seq along(reviewLinks) ) { 
if (is.na(reviewLinks [i] ) ) { 
noLink <- rbind(noLink, productPageFiles [i] ) 


} 
} 
R> noLink [1:3] 
[1] "../dataFull/Apple ProductPage 81.html1" 
[2] "../dataFull/Apple ProductPage 99.html1" 
[3] "../dataFull/Apple ProductPage 102.html1" 


最 后 ,我们 要 把 主机 地 址 http://www.amazon.com 加 入 采集 的 链接 里 。 我 们 会 把 已 经 包含 在 链接 中 的 主机 名 去 掉 ， 然 后 给 除了 被 设置 为 
NA 的 链接 的 所 有 链接 都 加 上 主机 地 址 。 


R> reviewLinks <- str replace(reviewLinks, "http://www.amazon.com", "") 
R> reviewLinks <- ifelse(is.na(reviewLinks), NA, 
R> str c("http://www.amazon.com", reviewLinks) ) 


现在 我 们 准备 好 下 载 第 一 批评 论 页 面 了 。 我 们 会 通过 创建 一 个 由 手机 ASIN 加 上 从 0001 开 始 的 索引 组 成 的 文件 名 ， 对 这 些 页 面 进行 采集 。 如 
果 该 文件 在 硬盘 上 还 不 人 存在， 而且 在 链接 向 量 里 也 有 对 应 的 条 目 ， 我 们 就 通过 把 函数 包 右 在 一 个 简单 的 try () 命令 里 ， 对 该 文件 进行 下 载 。 这 
样 ， 如 果 一 个 下 载 失败 了 ， 它 也 不 会 导致 循环 的 其 他 步骤 终止 。 我 们 给 下 载 过 程 加 入 一 个 随机 的 等 待 时 间 ， 用 来 模拟 人 类 行为 ， 避 免 让 亚马逊 
给 我 们 返回 错误 。 我 们 还 加 入 了 两 条 状态 消息 ， 用 于 提供 有 关 下 载 进度 的 信息 。 

R> N <- length(reviewLinks) 


R> for(i in seq along(reviewLinks) ) { 
R> # file name 


R> fname <- str_c(phonesData[i, "asin"], " 0001.html1") 
R> # download 

R> if(!file.exists(fname) & !is.na(reviewLinks [i] )) { 
R> message ("downloading") 

R> try (download.file(reviewLinks [i], fname) ) 

R> # sleep 

R> sleep <- abs(rnorm(1)) + runif (1, 0, .25) 

R> message("I have done ", i, " of ", N, 

R> " - gonna sleep ", round(sleep, 2), 

R> " seconds.") 

R> Sys.sleep (sleep) 

R> } 

R> # size of file info 

R> message(i, " size: ", file.info(fname)$size/1000, " KB") 
R> } 


同 理 ， 这 里 的 信息 远 远 多 于 我 们 在 本 练习 中 有 和 希望 能 分 析 到 的 ， 这 也 残 是 我 们 可 以 很 大 方 地 丢 痉 错误 数据 的 原因 。 我 们 创建 一 个 所 有 目前 
所 下 载 数据 的 向 量 ， 这 里 应 该 只 有 以 特征 001.htm | 为 结尾 的 评论 页 面 ， 并 删除 大 小 为 0 的 页 面 。 


R> firstPages <- list.files (pattern = "001.html") 
R> file.remove(firstPages [file.info(firstPages) $size == 0]) 
R> firstPages <- list.files (pattern = "001.html1") 


所 有 被 留 下 的 结果 都 是 要 解析 的 ， 而 且 要 创建 一 个 包含 了 所 有 首 个 评论 页 面 的 列表 。 


R> HTML <- lapply(firstPages, htmlParse) 


在 大 多 数 情 况 下 ， 每 个 手机 的 评论 页 面 都 会 超过 一 页 。 出 于 方便 讲解 的 考虑 ， 我 们 会 再 下 载 男 外 4 个 评论 页 面 ， 如 果 存 在 。 为 此 ， 我 们 对 上 
一 个 步骤 里 的 HTML 对 象 进行 循环 。 我 们 通过 查找 一 个 包含 了 文本 Next 的 <a> 节 点 并 沿 着 树 向 下 一 层 到 关联 的 href， 提 取 链 接 到 下 一 个 评论 页 
面 的 第 一 个 链接 。 如 果 这 样 的 链接 是 存在 的 并 且 我 们 没有 达到 评论 页 面 最 大 值 k， 在 这 里 束 是 3， 我 们 殊 下 载 这 个 页 面 。 我 们 要 产生 一 个 文件 
名 ,下 载 该 链接 ， 并 把 它 保存 在 硬盘 上 (如 果 它 还 不 存在 ) 。 我 们 还 要 解析 下 载 的 文件 ， 查 找 另 一 个 Next 评 论 页 面 的 链接 。 这 些 操 作 包 潜在 一 
个 tryCatch () 锐 数 里 ， 以 防 我 们 没有 找到 链接 的 情况 。 


R> for(i in seq along(HTML) ) { 
R> # extract link 


R> link <- xpathApply ( 

R> HTML[[i]], 

R> "//fa[contains(text(), 'Next')]/@href", 

R> as.chnaracter 

R> PESEL] 

R= # set k to 2 

R> Kk <- 2 

R> while(length(link) > O & k <= 5){ 

R> # gen filename 

R> fname <- str_replace ( 

R> firstPages [i], 

R> ” [[:digit:]]{4}-htmi", 

R> HEr EI 

R> str pad(k, 4, side = "left", pad = "0"), 
R> emai = | i 

R> ) 

R> ) 

R> message (4; “:",;, kK, "acc Bs Tmame) 

R> # download file 

R> if(!file.exists(fname) & length(link) > 0) { 

R> Gownload.file(link, fname, quiet = T) 

R> message(" download to file name: ", fname) 
R> Sys -Sleep (abs (rnorm(1)) + runif(1, 0, .25)) 
R> } 

R> htmlNext <- htmlParse (fname) 

R> # extract link for next file 

R> link <- tryCatch ( 

R> xpathApply ( 

R> htmlNext, 

R> "//atcontains(text(), 'Next')]/@ehref", 
R> as.character 

R> ELALI 

R> error = function(e) { 

R> message ("xpath error") 

R> NULL 

R> } 

R> ) 


Rs G E= å 


最 后 ， 我 们 在 dataReviews 目 录 里 创建 一 个 包含 .htm| 特 征 的 所 有 文件 的 向 量 。 如 果 一 切 照常 进行 ， 该 目录 里 应 该 没有 任何 文件 ， 不 过 这 次 
的 情况 却 并 非 如 此 。 我 们 删除 小 于 50000 字 市 的 文件 ， 因 为 在 这 些 文件 里 应 该 都 是 错误 信息 。 


R> tmp <- list.files (pattern = ".html") 
R> file.remove(tmp[file.info(tmp)$size < 50000]) 


17.2.2 ”信息 提 


在 数据 库 里 采集 了 手机 的 评论 页 面 之 后 ， 现 在 我 们 需要 从 页 面 提取 文本 评论 及 相 天 的 评分 ， 并 把 它们 加 入 数据 库 里 。 


在 提取 每 条 评论 的 数据 之 前 ， 我 们 先 提取 某 些 天 于 特定 手机 所 有 评论 的 元 信息 。 这 里 的 元 信息 包含 对 手机 分 别 给 出 的 一 星 到 五 星 的 评分 数 
量 。 提 取 这 个 元 信息 的 策略 是 利用 readHTMLTable () ， 因 为 这 些 数字 是 存放 在 一 个 table 节 点 里 的 。 为 了 只 提取 我 们 需要 的 信息 (每 个 星星 
的 评分 数量 ) ， 我 们 要 编写 一 个 小 的 辅助 函数 getNumbers () ， 它 提取 出 1~6 个 数 子 。 在 调用 readHTMLTable () 的 时 候 ， 该 函数 会 被 运用 
到 这 个 表格 里 的 每 个 单元 格 。 


首先 ,我 们 要 定义 提取 节点 值 并 从 中 提取 数字 的 getrNumbers () 函数 。 


R> getNumbers <- function (node)f 


R> val <- xmlValue (node) 

R> x <- str extract (val, "[[:digit:]]{1,6}") 
R> x 

R> } 


我 们 要 创建 一 个 所 有 手机 AsIN 的 向 量 ， 通 过 列 出 评论 目录 里 的 所 有 HTML 文 件 并 丢 奔 率 引 和 重复 值 ， 束 可 以 从 中 访问 客户 评价 。 


R> FPAsins <- list.files(pattern="html1$") 
R> FPAsins <- unique (str replace(FPAsins, "_.+", "")) 


我 们 还 要 创建 一 个 空 的 数据 框 用 于 保存 元 信息 。 


R> reviewsMeta <- data.frame (asin = FPAsins, one = NA, two = NA, 
three = NA, four = NA, five = NA, stringsAsFactors = F) 


然后 ， 我 们 要 对 存放 在 列表 对 象 HTML 里 的 所 有 第 一 个 评价 页 面 进 行 循环 ， 通 过 readHTMLTable () 提取 所 有 表格 ， 并 把 
getNumbers () 运用 到 它 的 所 有 元 素 。 从 产生 的 表格 列表 里 ， 我 们 只 保留 叫 作 productSummary 的 表格 ， 并 且 只 保留 它 的 第 三 个 变量 。 提 取 
的 数字 会 写 进 reviewsMeta 的 第 i 行 进行 保存 。 


R> for(i in seq along(HTML) ) { 


R> tmp <- as.numeric 人 

R> readHTMLTable ( 

R> HTML[[i]], 

R> elFun = getNumbers, 

R> stringsAsFactors = F 

R> ) SproductSummarysv3 

R> ) 

R> print (tmp) 

R> reviewsMeta[1, c("one", "two", "three", "four", "five")] <- tmp[1:5] 
R> } 


我 们 还 要 计算 每 种 手机 消费 者 评分 的 总 数 和 平均 数 。 


R> reviewsMetasSsum <- apply(reviewsMeta[, c("one", "two", "three", 

R> "four", "FEive")], 1, sum) 
R> reviewsMetaSmean <- (reviewsMetaSone + 

R> reviewsMetaStwo * 2 + 

R> reviewsMetasthree * 3 + 

R> reviewsMetaSfour * 4 + 

R> reviewsMetaSfive * 5 

R> ) / reviewsMeta$Ssum 


提取 元 信息 之 后 ， 我 们 现在 继续 处 理 评论 的 具体 信息 。 我 们 想 在 结果 的 数据 框 里 获得 的 是 ASIN、 评 论 者 对 该 产品 给 出 的 星星 数量 、 认 为 该 
评论 有 帮助 和 没有 帮助 的 用 户 数量 、 评 论 填写 的 日 期 、 评 论 的 标题 、 评 论 的 文字 。 为 了 保存 这 些 信息 ， 我 们 要 先 创建 一 个 空 的 数据 框 。 
R> reviews <- data.frame(asin = NA, stars = 0, helpfulyes = 0, 


helpfulno = 0, helpfulsum = 0, date = "", title = "", text = "r, 
stringsAsFactors = F) 


下 一 段 代码 可 能 看 起 来 有 点 复杂 ， 不 过 ， 它 其 实 只 是 对 所 有 ASIN 及 其 所 属 的 所 有 评论 页 面 执行 的 一 系列 简单 步骤 。 首 先 ， 我 们 利用 两 个 循 
环 来 提取 数据 。 市 有 率 引 i 的 外 层 循环 是 针对 AsIN 的 。 市 有 系 引 k 的 内 层 循环 是 针对 我 们 为 该 产品 采集 的 一 到 五星 评分 页 面 的 。 外 层 循 环 要 检索 
属于 该 产品 的 评论 页 面 的 文件 名 ， 并 把 它们 保存 到 files。 它 还 要 把 这 些 评 论 页 面 的 AsIN 保 人 存在 asin 里 ， 并 把 一 个 进度 消息 友 送 到 控制 合 。 


在 内 层 循 环 里 ， 我 们 首先 要 解析 一 个 文件 ， 并 把 它 的 表征 保存 在 html 里 。 下 一 步 ， 我 们 要 把 所 有 评论 节点 提取 到 一 个 向 量 里 ， 用 于 后 期 提 
取消 费 者 评分 和 补充 变量 。 所 有 评论 都 有 一 个 市 有 style= margin-left: 0.5em; ' 的 <div> 节 点 包 除 。 由 于 这 个 独特 的 文本 特征 很 容易 用 正则 表 
达 式 来 进行 提取 ， 我 们 会 直接 提取 整个 节点 的 值 ， 而 不 是 指定 一 个 更 精巧 的 XPath， 因 为 不 管 怎 样 XPath 表 达 式 也 还 会 需要 通过 正则 表达 式 来 进 


一 步 提取 。 


其 他 用 户 认为 该 评论 是 否 有 帮助 的 信息 总 是 以 下 列 形式 出 现 的 : “lof 1people found the following review helpful” 。 我 们 利用 这 个 特 
征 的 方式 是 提取 一 个 尽 可 能 短 的 、 以 一 至 五 个 数字 开始 、 并 以 people 结 尾 的 字符 串 。 我 们 从 这 个 子 字符 串 提 取 所 有 数字 的 序列 ， 并 把 这 些 数 字 
赋 给 helpful 系 列 变量 : helpfulyes、helpfulno 和 helpfulsum。 


对 该 产品 的 消费 者 评分 也 符合 某 个 特征 ， 例 如 ，“5.0out of 5stars”。 为 了 采集 它 ， 我 们 提取 一 个 以 “数字 点 数字 ”开始 、 以 stars 结 尾 的 
子 字符 串 ， 并 从 该 子 字 符 串 提取 第 一 个 数字 作为 评分 。 


评论 文本 也 是 利用 XPath 提取 的 ， 因 为 它 有 个 独特 的 class， 即 reviewText。 我 们 要 查找 一 个 带 有 该 class 的 <div> 节 点 并 指定 xpathApply 必 
须 返 回访 节点 的 值 。 注 意 ， 评 论 的 标题 和 文本 都 有 可 能 包含 单 引 号 ， 之 后 可 能 会 干扰 QL 语句。 因此 ， 我 们 把 每 个 单 引号 替换 为 一 系列 的 双 引 
号 。 大 部 分 SQL 数 据 会 把 这 种 方式 识别 为 对 单 引号 的 转 义 ， 这 样 它们 保存 进去 的 只 是 一 个 蛙 引 号 。 


标题 和 日 期 都 位 于 一 个 span 节 点 里 ， 而 且 该 节点 是 一 个 <div> 节 点 的 子 节点 ， 而 该 <div> 节 点 又 是 男 一 个 包 里 了 所 有 评论 信息 的 div 节 点 的 
子 节点 。 该 <span> 节 点 的 class 在 这 个 子路 径 里 是 独特 的 ， 其 中 的 标题 被 设置 为 粗 体 ， 即 在 一 个 <b> 节 点 里 ， 而 日 期 包 襄 在 一 个 <nobr> 节 点 


里 。 我 们 要 通过 两 个 对 xpathApply () 的 调用 来 提取 每 个 路 径 的 值 。 


由 于 每 个 页 面 最 多 有 10 条 评论 ， 所 有 的 信息 (无 论 是 否 有 帮助 的 一 系列 变量 、 消 费 者 评分 、 评 论文 字 、 标 题 和 日 期 ) 都 会 产生 向 量 。 这 些 
向 量 可 以 通过 cbind () 汇集 到 和 矩阵 tmp 并 通过 rbind () 添加 到 我 们 准备 好 的 数据 框 reviews 里 。 


R> for(i in seq along(FPAsins) ) { 
R> # gather file names for ASIN 


R> files <- list.files(pattern = FPAsins [i] ) 

R> asin <- FPAsins[i] 

R> message(i, " / ", length(FPAsins), " ... doing: ", asin) 

R> # loop through files with same asin 

R> for(k in seq _along(files) ) { 

R> # parsing one file 

R> html <- htmlParse (files [k] ) 

R> # base path for each review : "//div[@style='margin-left:0.5em;']" 
R> reviewValue <- unlist( xpathApply ( 

R> html, 

R> "//div [@style='margin-left:0.5em;']", 
R> xml Value) ) 

R> # helpful 

R> helpful <- str_extract (reviewValue, 

R> "[[:digit:]]{1,5}.*?[[:digit:]] {1,5} people") 
R> helpful <- str extract all(helpful,"[[:digit:]]{1,5}") 
R> helpfulyes <- as.numeric(unlist(lapply(helpful,'[',1))) 
R> helpfulno <- as.numeric(unlist (lapply (helpful, '[',2))) 
R> - helpfulyes 

R> helpfulsum <- helpfulyes + helpfulno 

R> # stars 

R> stars <- str_extract (reviewValue, 

R> "{[:digit:]]\\.[[:digit:]] out of 5 stars") 
R> stars <- as.numeric(str_extract (stars, "[[:digit:]]")) 

R> # text 

R> text <- unlist (xpathApply ( 

R> html, "//div[@style='margin-left:0.5em;'] 

R> /div[@class='reviewText'!]", xmlValue) ) 

R> text <- str_replace all(text, "'", "8'") 

R> # title 

R> title <- unlist (xpathApply ( 

R> html, "//div[@style='margin-left:0.5em;'] 

R> /div/span [(@style='vertical-align:middle;']/b", 

R> xmlValue) ) 

R> title é- str replace ali(title, "tn, mtra) 

R> # date 

R> date <- unlist(xpathApply ( 

R> html, "//div[@style='margin-left:0.5em;'] 

R> /div/span [@style='vertical-align:middle;']/nobr", 

R> xmlValue) ) 

R> # putting it together 

R> tmp <- cbind(asin, stars, helpfulyes, helpfulno, 

R> helpfulsum, date, title, text) 

R> reviews <- rbind(reviews, tmp) 

R> } 

R> } 


最 后 ， 我 们 只 保留 reviews 里 那些 第 一 行 不 是 NA 的 行 ， 并 去 掉 一 开始 创建 该 数据 框 时 引入 的 假 数据 。 
R> reviews <- TeVlews[!1SsS.na(revlIewSsSaSsln) ,| 
17.2.3 BGR 
既然 我 们 已 经 采集 了 所 有 需要 的 数据 ， 现 在 是 时 候 把 它们 保存 到 数据 库 里 了 。 数 据 库 里 设置 了 两 个 表 用 来 存放 数据 : reviewsMeta 用 于 产 


品 层 次 的 评论 数据 ; reviews 用 于 单个 评论 层次 的 数据 。 对 于 两 个 表 而 言 ， 我 们 要 为 数据 框 里 的 每 一 行 构 建 SQL INSERT 语句， 并 对 它们 进行 循 
环 ， 把 其 中 的 信息 输入 数据 库 里 。 用 于 向 reviewsMeta 表 插入 数据 的 SQL 语 句 应 该 有 如 下 的 抽象 形式 : 


] INSERT INTO reviewsMeta (coll, col2, col3) 
2 VALUES ('vall', 'val2', 'val3'); 





为 此 ， 我 们 使 用 两 个 对 str_ c () 的 调用 。 内 层 调 用 会 把 要 保存 的 值 组 合成 一 个 字符 串 ， 其 中 每 个 值 都 用 '，' 隔 开 。 然 后 这 些 字符 串 要 用 语句 
的 其 他 部 分 (INSERT INTOhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15597/OEBPS/Text/... ("和 ') ; ) 包 于 起 来 形成 完整 的 语句 。 


R> SQL <- str_c(" INSERT INTO reviewsMeta 
(asin, one, two, three, four, five) 
VALUES 
heer 
Scr: wl 

reviewsMetal[, "asin"], 

reviewsMeta[, "one"], 

reviewsMetal[, "two"], 

reviewsMetal[, "three"], 

reviewsMetal[, "four"], 
reviewsMetal[, "five"], 
sep="', '") 


Pike) E m 


产生 的 语句 同 量 里 的 前 两 个 条 目 如 下 所 示 : 


R> cat (SQL[1] ) 
INSERT INTO reviewsMeta 
(asin, one, two, three, four, five) 
VALUES 
[ *BU0GSrCARIA, T791- VHA naL! 1351.. "Ae = 
R> cat (SQL[2] ) 
INSERT INTO reviewsMeta 
(asin, one, two, three, four, five) 
VALUES 
( BOUDAATEZ(”, "45", "24", IZ", "gom *aa")5 


现在 我 们 可 以 对 该 向 量 进 行 循环 ， 通 过 dbGetQuery () 把 每 条 语句 发 送 给 数据 库 。 


R> for(i in seq along(SQL)) dbGetQuery(con, SQL[1i] ) 


保存 每 条 评论 数据 的 过 程 和 刚才 针对 reviewsMeta 讲 解 的 过 程 类 似 。 首 先 ， 我们 要 把 相关 的 值 和 SQL 语句 的 片段 组 合 起 来 ， 构 成 一 个 语句 
的 向 量 ， 然 后 对 它们 进行 循环 并 利用 dbGetQuery () 把 它们 发 送 给 数据 库 。 


R> SQL <- str_c(" INSERT INTO reviews 
(asin, stars, helpfulyes, helpfulno, 
helpfulsum, date, title, text) 

VALUES 

Ear 

str _ c( 
reviews[, "asin"], 
reviews[, "stars"], 
reviews[, "helpfulyes"], 
reviews[, "helpfulno"], 
reviews[, "helpfulsum"], 
reviews[, "date"], 
reviews[, "title"], 
reviews[, "text"], 


sep="' p 1 e) 


‘DREJ n} 


再 来 看 一 下 产生 的 语句 向 量 的 第 一 个 条 目 。 


R> cat (SQL[1] ) 
INSERT INTO reviews 

(asin, stars, helpfulyes, helpfulno, 

helpfulsum, date, title, text) 

VALUES 

{"BOOOSFCAJA', "5*, "4", "L', "51, "June 20, 2007", 
'One of the best in the market...', 'Have owned two in the past two 
years and my daughter has another one. Reliable, inexpensive, 
practical, easy to use. Tons of accesories and add-ons. One of the 
best, if not the best, Motorola has ever made.'); 
R> for(i in seq along(SQL)) dbGetQuery (con, SQL[1i] ) 


17.3 “分 析 数 据 


既然 我 们 在 普通 数据 库 里 保存 了 评论 数据 ， 我 们 就 可 以 开始 对 文本 进行 情绪 评分 。 在 17.3.1 节 对 数据 进行 某 些 预 处 理 之 后 ， 我 们 要 首次 尝试 
基于 情绪 字典 对 文本 进行 评分 。 随 后 ， 我 们 要 利用 结构 化 信息 对 评论 的 情绪 进行 评估 ， 从 而 确定 我 们 是 否 能 训练 一 个 分 类 器 ， 用 它 对 不 在 训练 
语料库 中 的 文本 进行 情绪 的 分 析 。 


让 我 们 先 设置 一 个 到 数据 库 的 连接 ， 并 列 出 数据 库 里 所 有 可 用 的 表 。 


R> sqlite <- dbDriver ("SQLite") 
R> con <- dbConnect (sqlite, "amazonProductInfo.db") 
R> dbListTables (con) 


[1] "AllData" "TtemData" "ReviewData" 
[4] "items" "links" "models" 

[7] "phones" "producers" "reviews" 
[10] "reviewsMeta" "sqlite sequence" 


我 们 把 AllIPata 表 读 取 到 一 个 data.frame 里 ， 并 输出 该 数据 集 的 列 名 和 维度 。AllData 是 一 个 视图 ， 也 融 是 虚拟 表 ， 它 会 把 来 目 多 个 表 的 信 
息 合并 到 一 个 表 里 。 


R> allData <- dbReadTable(con, "AllData") 
R> names (allData) 


[1] "itemid" "itemprice" "itemstars" 

[4] "itemrank" "itemtitle" "model" 

[7] "aBn" "producer" "apin; 1” 

[10] "reviewid" "reviewstars" "allrev_onestar" 
[13] "allrev_twostar" "allrev threestar" "allrev fourstar" 
[16] "allrev fivestar" "helpfulyes" "helpfulno" 

[19] "helpfulsum" "reviewdate" "reviewtitle" 


[22] "reviewtext" 
R> dim(allData) 
[1] 4254 a2 


17.3.1 数据 预 处 理 


对 于 数据 预 处 理 ， 我 们 依赖 在 第 10 章 已 经 介绍 过 的 tm 组 件 。 我 们 还 要 运用 textcat 组 件 来 给 文本 的 语言 进行 分 类 ， 以 及 RTextTools 组 件 进 
一 步 对 文本 进行 挖掘 操作 。 另 外 vioplot 组 件 提 供 了 一 个 绘图 图 数 ， 会 企 17.3.2 节 用 到 。 


R> library (tm) 
R> library (textcat) 


R> library (RTextTools) 
R> library (vioplot) 


在 设置 文本 语料库 之 前 ,我 们 尝试 丢弃 那些 不 是 用 严 语 编写 的 评论 。 我 们 会 利用 textcat 组 件 ， 它 通过 分 析 字 和 母 的 顺序 对 文本 的 语言 进行 分 
类 。 每 种 语言 都 有 特定 的 字母 顺序 特征 。 我 们 要 利用 这 些 信息 ， 可 以 通过 对 一 段 文 本 中 这 种 顺序 的 计数 ， 即 所 谓 的 n 元 文法 (n-grams) ， 并 把 
它 的 实证 特征 和 已 知 语言 文本 的 参考 值 进行 比较 。[ 这 种 分 类 方法 是 相当 准确 的 ， 但 是 也 难免 会 有 错误 分 类 的 情况 发 生 。 由 于 数据 的 充分 性 ， 
我 们 可 以 丢弃 所 有 被 评估 为 非 天 语 的 文本 。 我 们 还 要 丢 芭 那 些 缺少 评论 文本 的 评论 。 


R> allDataSlanguage <- textcat (allData$reviewtext) 

R> dim(allData) 

R> allData <- allData[allDataSlanguage == "english", ] 
R> allData <- allData[!is.na(allDataSreviewtext) , ] 

R> dim(allData) 

[1] 3748 23 


下 一 步 ， 我 们 要 设置 所 有 文本 评论 的 语料库 。 
R> reviews <- Corpus (VectorSource (allDataSreviewtext) ) 


我 们 还 要 执行 在 第 10 章 介绍 过 的 预 处 理 步 又， 也 就 是 说 ， 要 去 掉 数 字 、 标 点 符号 和 终止 词 (stop words) ， 并 把 文本 转换 为 小 写 ， 并 进行 
词 干 提取 (stem the terms) 。 


R> reviews <- tm map (reviews, removeNumbers) 
R> reviews <- tm map (reviews, str replace all, pattern = 


"{[[:punct:]]", replacement = " ") 

R> reviews <- tm map (reviews, removeWords, words = stopwords ("en") ) 
R> reviews <- tm map (reviews, tolower) 

R> reviews <- tm map (reviews, stemDocument, language = "english") 


R> reviews 
A corpus with 3748 text documents 


17.3.2 基于 字典 的 情绪 分 析 


给 文本 情绪 进行 评分 的 最 简单 办 法 是 对 文档 中 表达 正面 和 负面 的 词 条 进行 计数 。 有 研究 者 已 经 提出 了 很 多 表达 情绪 的 词 条 的 集合 。 在 本 应 
用 中 ， 我 们 要 用 到 Hu 和 Liu (2004) 以 及 Liu et al. (2005) 提供 的 字典 。[ 包 它 由 两 个 列表 组 成 ， 每 个 列表 里 分 别 含有 几 干 个 能 揭示 文字 中 情绪 
倾向 的 词 条 。 我 们 要 加 载 这 些 列表 ， 并 丢弃 无 关 的 介绍 文字 。 


R> pos <- readLines("opinion-lexicon-English/positive-words.txt") 
R> pos <- pos[!str detect (pos, "";")] 

R> pos <- pos[2:length(pos) ] 

R> neg <- readLines ("opinion-lexicon-English/negative-words.txt") 
R> neg <- neg[!str detect (neg, "^;")] 

R> neg <- neg[2:length (neg) ] 


我 们 要 利用 stemDocument () 遂 数 对 这 两 个 列表 提取 词 干 ， 并 丢弃 重复 数据 。 


R> pos <- stemDocument (pos, language = "english") 


R> pos <- pos[!duplicated (pos) ] 


R> neg <- stemDocument (neg, language = "english") 


R> neg <- neg[!duplicated (neg) ] 


让 我 们 简略 查看 正面 和 负面 词 条 的 样本 ， 检 查 该 字典 是 否 包 含 了 可 信 的 条 目 。 


R> set.seed (123) 
R> sample(pos, 10) 
[1] "exalt" "sleek" "gratitud" 
[6] "ardent" "light-heart" "top-notch" 
R> sample (neg, 10) 


"tridi" "Valiant" 
"Pyric "hottest" 


[1] "unview" "impun" "plea" "martyrdom-seek" 
[5] "calam" eum Cu" "dissolut" favaric® 
[9] "flag" "unsteadi" 


看 来 ， 随 机 抽取 的 单词 是 能 够 可 信 地 反映 正面 和 负面 情绪 的 一 一 虽然 我 们 希望 不 会 有 哪 一 款 手 机 被 评论 为 适合 寻求 殉道 的 人 3。 我 们 接着 
要 创建 一 个 词 条 -文档 矩阵 ， 里 面 的 词 条 在 行 里 列 出 ， 文 本 则 放 在 列 里 。 在 一 个 普通 的 词 条 -文档 矩阵 里 ， 词 条 人 在 文本 里 出 现 的 频率 会 在 单元 格 
中 显示 。 相 反 ， 我 们 对 每 个 词 条 只 进行 一 次 计数 ， 无 论 它 出 现在 文本 中 的 频率 是 多 少 。 这 样 我 们 提出 的 思路 是 : 仪 仅 统 计 词 条 在 文本 中 出 现 或 
不 出 现 ， 这 是 对 于 文本 情绪 倾向 的 更 健壮 的 思 结 指标 。 这 是 通过 给 TermDocumentMatrix () 函数 的 control 选 项 里 加 入 


weighting=weightBin 来 进行 的 。 我 们 还 要 丢弃 只 出 现在 5 个 或 少 于 5 个 评论 里 的 词 条 。 


R> tdm.reviews.bin <- TermDocumentMatrix (reviews, 


(weighting = weightBin) ) 


control = list 


R> tdm.reviews.bin <- removeSparseTerms (tdm.reviews.bin, 


1- (5/length (reviews) ) ) 
R> tdm.reviews.bin 


A term-document matrix (2212 terms, 3748 documents) 


Non-/sparse entries: 121032/8169544 


Sparsity : 99% 
Maximal term length: 12 
Weighting : binary (bin) 


为 了 计算 文本 中 的 情绪 ， 我 们 要 把 该 矩阵 缩短 ， 让 它们 只 包含 具有 已 知情 绪 倾 向 的 词 条 ， 并 把 正面 和 负面 词 条 分 开 。 我 们 要 针对 每 条 文本 
对 其 中 的 条 目 进 行 汇 总 ， 得 到 一 个 文本 正面 和 负面 词 条 出 现 频 率 的 向 量 。 要 总 结 该 文本 的 总 体 情绪 ， 我 们 可 以 计算 正面 和 负面 词 条 的 差 ， 并 舍 


弃 两 者 之 差 为 0 的 文本 ， 也 就 是 不 市 有 任何 情绪 词 条 或 上 正面 和 负面 词 条 互相 抵消 的 评论 。 


R> pos.mat <- tdm.reviews.bin[rownames (tdm.reviews.bin) %in% pos, ] 
R> neg.mat <- tdm.reviews.bin[rownames (tdm.reviews.bin) %in% neg, | 


R> pos.out <- apply(pos.mat, 2, sum) 
R> neg.out <- apply(neg.mat, 2, sum) 
R> senti.diff <- pos.out - neg.out 

R> senti.diff[senti.diff == 0] <- NA 


让 我 们 来 检查 情绪 编码 的 结果 。 首 先 ， 但 看 一 些 基本 的 分 布 属性 。 


R> summary (senti.diff) 
Min. 1st Qu. Median Mean 3rd Qu. 
-6.00 wide S400 4.36 6.00 


Max. NA'S 
51.00 260 


平均 的 评分 是 正面 的 〈 平 均 为 4.36 个 正面 词 ) ， 但 极端 情况 也 相当 大 ， 特 别 是 关于 分 布 情况 的 上 端 。 正 面 程度 最 高 的 文本 包含 了 51 个 正面 


词 条 。 站 这 个 总 结 要 指出 的 是 评论 长 度 的 极端 变化 带 来 的 干扰 。 


R> range (nchar (allDataSreviewtext) ) 
[1] 76 23995 


最 短 的 评论 包含 了 不 超过 76 个 字符 ， 而 最 长 的 评论 的 词 干 包括 了 不 少 于 23995 个 字符 。 有 时 候 学 生 提交 的 学 期 论文 都 没 它 长 。 由 于 我 们 考 
虑 的 是 正面 和 负面 评论 之 间 的 差别 ， 这 个 现象 不 应 该 是 个 太 严重 的 问题 。 不 过 ,我 们 可 以 让 情绪 测算 的 差 值 除 以 评论 中 的 字符 数 ， 得 到 关于 一 
个 常用 措 标的 测算 。 首 先 ， 我们 设置 一 个 数据 框 ， 里 面 是 我 们 想 要 绘制 的 数据 ， 并 丢 痉 那些 评估 出 情绪 为 0 的 记录 。 


R> plot.dat <- data.frame ( 
sentiment = senti.diff/nchar(allDataSreviewtext), 
stars = allDataSreviewstars) 

R> plot.dat <- plot.dat[!is.na(plot.datSsentiment) , ] 


利用 来 自 vioplot 组 件 的 vioplot () 函数 ， 我 们 创建 了 一 个 小 提琴 图 ， 它 是 一 种 箱 型 图 与 核 密 度 绘 图 的 混合 图 (Adler 2005; Hintze and 
Nelson 1998) 。 


R> vioplot ( 


R> plot.datSsentiment [plot.datS$stars == 1], 

R> plot.datSsentiment [plot.dat$stars == 2], 

R> plot.datSsentiment [plot.dat$stars == 3], 

R> plot.datSsentiment [plot.datS$stars == 4], 

R> plot.datSsentiment [plot.datS$stars == 5], 

R> horizontal = T, 

R> col = "grey") 

R> axis(2, at = 3, labels = "Stars in review", line = 1, tick = FALSE) 
R> axis(1, at = 0.01, labels = "Estimated sentiment by number of 


characters", line = 1, tick = FALSE) 


结果 绘制 在 图 17-1 中 。 我 们 友 现 评估 情绪 的 顺序 和 结构 化 的 评分 是 一 致 的 。 评 分 者 给 产品 的 星星 越 多 ， 文 本 评论 中 表达 的 情绪 束 越 好 ， 反 
之 亦 然 。 不 过 ， 这 五 个 分 类 之 间 也 有 相当 大 的 重 到 ， 即 使 是 对 于 一 星 评分 ， 我 们 也 得 到 了 整体 的 平均 正面 情绪 。 显 然 ， 我 们 的 评估 只 能 大 致 地 
获取 所 表达 的 情绪 。 





评分 中 的 星星 数 





-0.04 -0.02 0.00 0.02 0.04 0.06 
评 佑 的 情绪 值 除 以 字符 数 


图 17-1 在 亚马逊 评论 中 的 “情绪 评估 与 产品 评分 ”的 小 提琴 图 


对 评价 文本 中 的 情绪 进行 评估 的 另 一 种 方法 是 考虑 标题 栏 里 表达 的 情绪 。 这 种 方法 的 优点 是 ， 标 题 栏 通 遂 包 含 了 评论 的 总 结 性 声明 ， 因 而 
能 更 简便 地 获得 对 情绪 的 评估 。 我 们 创建 一 个 评论 标题 的 语料库 ， 并 进行 和 之 前 相同 的 数据 预 处 理工 作 。 


R> # Set up the corpus of titles 

R> titles <- Corpus (VectorSource (allData$reviewtitle)) 

R> titles 

R> # Perform data preparation 

R> titles <- tm map (titles, removeNumbers) 

R> titles <- tm map (titles, str replace all, pattern = 
"([[:punct:]]", replacement = " ") 

R> titles <- tm map (titles, removeWords, words = stopwords ("en") ) 
R> titles <- tm map (titles, tolower) 

R> titles <- tm map (titles, stemDocument, language = "english") 
R> # Set up term-document matrix 

R> tdm.titles <- TermDocumentMatrix (titles) 

R> tdm.titles <- removeSparseTerms (tdm.titles, 1-(5/length(titles) ) ) 
R> tdm.titles 

R> # Calculate the sentiment 

R> pos.mat.tit <- tdm.titles [rownames (tdm.titles) %in% pos, ] 
R> neg.mat.tit <- tdm.titles[rownames(tdm.titles) %in% neg, | 
R> pos.out.tit <- apply(pos.mat.tit, 2, sum) 

R> neg.out.tit <- apply(neg.mat.tit, 2, sum) 

R> senti.diff.tit <- pos.out.tit - neg.out.tit 

R> senti.diff.tit[senti.diff.tit == 0] <- NA 


由 于 在 本 案例 中 的 情绪 差异 少 于 10 个 独特 值 ， 所 以 我 们 把 评估 结果 绘制 为 点 而 不 是 密度 分 布 。 同 理 ， 我 们 也 不 再 把 结果 除 以 标题 里 的 字符 
数 ， 因 为 它们 的 长 度 都 差不多 。 在 开始 绘制 之 前 ,会 给 这 些 点 加 入 一 个 随机 的 偏 才 (Gitter) 。 因 为 在 结构 化 评分 里 只 有 5 个 分 类 ， 如 果 我 们 给 这 
些 点 加 入 一 些 噪 声 ， 束 可 以 更 好 地 视 完 化 查看 结果 。 


R> plot(jitter(senti.diff.tit), jitter(allDataSreviewstars), 


R> Gol = wop(e, 0, 0; 04), 

R> ylab = "Stars in Review", 

R> xlab = "Estimated sentiment" 
R> ) 


R> abline(v = 0, lty = 3) 


同样 ， 我 们 也 观察 到 评论 者 给 的 星星 数 和 在 标题 里 评估 的 情绪 是 大 致 重 革 的 (参见 图 17-2) 。 不 过 ,我 们 的 评估 经 常 也 会 有 点 跑 偏 。 因 
此 ， 我 们 在 17.3.3 节 会 继续 讨论 另 一 种 蔡 代 的 文本 挖掘 技术 。 


评分 中 的 星星 数 





-2 -1 0 1 2 3 4 
评估 的 情绪 值 


图 17-2 ”在 亚马逊 评论 标题 里 的 “评估 情绪 与 产品 评分 “。 数 据 在 两 个 轴 方 向 都 加 入 了 偏差 


17.3.3 ”挖掘 评论 的 内 容 

第 10 章 讨论 了 运用 文本 挖掘 技术 对 文本 中 的 主题 分 类 进行 评估 的 可 能 性 。 这 样 的 具体 做 法 是 ， 给 文本 语料库 的 一 部 分 分 配 标签 ， 并 基于 用 
词 的 相似 性 来 评估 未 标记 文本 的 标签 。 对 于 我 们 稼 试 评估 的 标 釜 类 型 并 没有 近 术 上 的 限制 。 这 融 是 训 ， 我 们 并 不 一 定 要 评估 文本 的 主题 重点 。 
我 们 也 可 以 相对 于 对 训练 数据 集 的 标记 来 评估 文本 中 表达 的 情绪 。 


设置 一 个 文档 - 词 条 矩阵 ， 这 是 RTextTools 组 件 需要 的 。 我 们 删除 稀 嘴 词 条 并 设置 评估 的 容器 。 我 们 要 把 最 前 面 的 2000 条 评论 分 配 到 训练 
数据 集 ， 余 下 的 一 组 大 约 2000 条 评论 则 用 于 测试 该 模型 的 准确 性 。 


R> dtm.reviews <- DocumentTermMatrix (reviews) 

R> dtm.reviews <- removeSparseTerms (dtm.reviews, 1-(5/length(reviews) ) ) 
R> N <- length(reviews) 

R> container <- create container ( 


R> dtm.reviews, 

R> labels = allDataSreviewstars, 
R> trainSize = 1:2000, 

R> testSize = 2001:N, 

R> virgin = F 

R> ) 


R> dtm. reviews 
A document-term matrix (3748 documents, 2212 terms) 


Non-/sparse entries: 121032/8169544 


Sparsity : 99% 
Maximal term length: 12 
Weighting : term frequency (tf) 


我 们 要 分 别 训练 最 大 炳 和 文 持 同 量 机 模型 ， 并 对 评论 的 测试 数据 集 进行 分 类 。 


R> maxent.model <- train model (container, "MAXENT") 

R> svm.model <- train model (container, "SVM") 

R> maxent.out <- classify model (container, maxent .model) 
R> svm.out <- classify model (container, svm.model) 


最 后 ， 要 创建 一 个 结果 的 数据 框 ， 并 配套 正确 的 标签 。 


R> labels.out <- data.frame ( 


R> correct.label = as.numeric(allDataSreviewstars[2001:N]), 
R> maxent = as.numeric(maxent.out[,1]), 

R> svm = as.numeric(svm.out[,1]) 

R> ) 


照例 ， 我 们 把 结果 绘制 为 点 云图 ， 并 给 每 个 点 加 入 随机 的 偏差 以 改善 视 总 效果 。 


R> plot(jitter(labels.out[,2]), jitter(labels.out[,1]), 


R> xlab = "Estimated stars", 

R> ¥Ylab =: “True stars” 

R> ) 

R> plot(jitter(labels.out[,3]), jitter(labels.out[,1]), 
R> xlab = "Estimated stars", 

R> ylab = "True stars" 

R> ) 


结果 如 图 17-3 和 图 17-4 所 示 ， 数 据 在 两 个 轴 方 向 上 都 加 入 了 偏差 。 利 用 两 者 中 任何 一 个 分 类 器 ， 我 们 都 发 现 这 两 个 程序 基于 文本 评论 对 评 
论 中 的 星星 数量 都 产生 了 相当 准确 的 预测 。 

在 RTextTools 组 件 里 还 实现 了 更 多 的 分 类 器 。 你 可 以 接着 尝试 对 该 数据 集 评估 其 他 的 模型 。 你 只 需要 调整 train_ model () 函数 里 的 
algorithm 参 数 就 行 了 。 中 你 也 可 能 会 愿意 从 多 个 分 类 器 创建 模型 评估 结果 ， 从 而 进一步 改善 文本 评论 中 情绪 分 类 的 准确 性 。 
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图 17-4 “亚马逊 评论 的 支持 向 量 机 分 类 结果 
[1] ”有 关 该 主题 的 介绍 ， 请 参阅 Ramisch (2008) 。 总 体 而 言 ， 无 论 我 们 具体 采用 了 什么 技术 ， 非 英语 的 评论 都 不 应 该 会 严重 降低 我 们 的 评估 质 
量 。 在 基于 字典 的 方法 中 ， 非 英语 评论 应 该 分 配 中 性 值 ， 因 为 在 其 文本 中 几乎 不 会 出 现任 何 带 情绪 的 词 条 。 反 之 ， 统 计 性 文本 挖 据 技术 对 于 非 
英语 文本 的 分 类 会 失效 ， 但 这 不 至 于 对 英语 文本 分 类 的 准确 度 产 生 强烈 的 影响 。 
[2] 该 数据 集 可 以 在 http://www.cs.uic.edu/~liub/FBS/opinion-lexicon-English.rar 获 取 (最 后 访问 时 间 : 2014 年 2 月 15 日 ) 。 
[3] 这 里 是 作者 开 的 一 个 玩笑 ， 从 列 出 的 负面 词 条 里 有 一 个 词 是 mattytrdom-seek， 可 以 引申 为 某 个 品牌 的 死 忠 ， 哪 怕 产 品 再 不 理想 ，“ 牺 牲 ” 自己 





也 要 用 它 。 译 者 注 
[各 更 仔细 地 检查 数据 后 发 现 ， 这 条 超 长 评论 是 关于 一 款 Google Nexus 4 手机 的 ， 你 可 以 自己 判断 这 款 手 机 是 否 能 激发 这 样 的 热情 。 


[5] 关于 RTextTools 组 件 里 可 用 的 算法 ， 请 使 用 ?train_model 参 阅 该 函数 的 文档 。 
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在 本 章 里 ,我们 运用 了 两 种 技术 对 文字 表达 的 情绪 进行 评分 。 一 方面 ， 我 们 基于 评论 中 使 用 的 词 条 对 产品 评论 的 情绪 进行 评估 。 另 一 方 
面 ， 我 们 示 光 了 有 监督 的 文本 分 类 不 一 定 只 局 限于 文本 的 主题 分 类 。 我 们 可 以 对 文本 的 多 种 方面 进行 分 类 ， 只 要 有 一 组 市 标记 的 训练 数据 集 殉 
TT: 


在 本 案例 中 ， 对 文本 的 评分 被 简化 了 ， 这 是 因为 产品 评论 准确 对 应 了 一 个 对 象 ， 即 该 产品 。 这 就 是 说 ， 在 文本 里 任何 地 方 出 现 的 负面 词 条 


都 最 有 可 能 对 应 所 评价 的 产品 。 把 这 种 情况 和 一 篇 杂志 的 文字 相 比 较 ， 杂 志 里 会 讨论 到 多 个 对 象 ， 讨 论 的 方式 也 没 法 直截了当 地 评估 负面 词 条 
对 应 的 是 哪个 对 象 。 因 此 ， 我 们 就 无 法 像 在 本 章 那 样 轻松 地 对 分 析 进 行 隐 合 的 假设 ,设想 出 现在 文本 任何 地 方 的 词 条 都 是 天 于 某 个 特定 对 象 
的 。 此 外 ， 在 产品 评论 中 的 情绪 也 比较 容易 评分 ， 这 是 因为 评论 本 身 就 是 明确 写 出 来 表达 情绪 的 。 同 样 ， 我 们 把 这 个 特点 和 杂志 文章 作 个 比 
较 。 昌 然 杂 志 中 的 文字 实际 上 也 是 针对 某 个 主题 或 特定 人 物 表 达 情 绪 的 ， 但 是 通常 其 中 的 情绪 是 以 更 微妙 的 方式 来 表达 的 。 
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